算法详情-人机对抗智能

CoPPO：

CoPPO（中山大学余超团队）

适用场景：

共享回报的合作型多智能体环境。

算法类型：

自主原创

算法简介：

MAPPO通过使用中心化的值函数，将PPO拓展至多智能体环境；在MAPPO的基础上，根据理论推导，CoPPO实现了智能体之间在策略更新步长上的协同。

开源实现：

参考文献：

[1] Chao Yu, Akash Velu, Eugene Vinitsky, Yu Wang, A. Bayen, and Yi Wu. The surprising effectiveness 363 of mappo in cooperative, multi-agent games. ArXiv, abs/2103.01955, 2021.

算法模块：

CoPPO.zip