开放平台

OPEN PLATFORM

针对不同决策问题

介绍各类决策平台并提供接入方式

学术分类应用分类
平台名称:

兵棋子环境-部分可观测异步智能体协同

博弈特点:

两人零和博弈;不完美信息,异步智能体协作。

潜在应用:

适用于多智能体强化学习等算法的标准测试环境,相关算法的研究将推动多智能体合作领域的研究,可用于解决兵棋AI人机对抗挑战。

平台简介:

继星际争霸人机对抗突破之后,兵棋推演作为人机对抗的下一个挑战,将牵引智能决策技术新的发展[1,2]兵棋推演的智能决策技术与挑战[3]一文指出了兵棋AI研发的挑战问题如算子异步协同、非对称环境决策等,为了促进学术界更好针对如上问题开展研究,凝练兵棋AI关键问题,开放学习标准环境,填补兵棋决策智能研究关键问题基准学习环境空白。

兵棋子环境-部分可观测异步智能体协同(POCA)[4],致力于解决部分可观测环境下的智能体异步协同问题。POAC是一种轻量级、灵活、易用的环境,可以由用户配置,以满足不同的实验需求。其支持self-play模式、人机等多种模式。POCA提供了6个不同难度的训练场景,并将基于规则的AI作为对手,其内置包括QMIX,VDN,Qtran,IQL与COMA等在内的代表学习算法。


参考文献:
[1] 人机对抗智能技术,中国科学:信息科学,http://scis.scichina.com/cn/2020/N112019-00048.pdf.
[2] AI in Games: Techniques, Challenges and Opportunities,https://arxiv.org/abs/2111.07631.
[3] 兵棋推演的智能决策技术与挑战,自动化学报,http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210547.
[4] The Partially Observable Asynchronous Multi-Agent Cooperation Challenge, https://arxiv.org/abs/2112.03809.
推荐阅读
问题反馈
请将您的宝贵意见反馈给我们