CoPPO(中山大学余超团队)
共享回报的合作型多智能体环境。
自主原创
MAPPO通过使用中心化的值函数,将PPO拓展至多智能体环境;在MAPPO的基础上,根据理论推导,CoPPO实现了智能体之间在策略更新步长上的协同。
[1] Chao Yu, Akash Velu, Eugene Vinitsky, Yu Wang, A. Bayen, and Yi Wu. The surprising effectiveness 363 of mappo in cooperative, multi-agent games. ArXiv, abs/2103.01955, 2021.