兵棋子环境-部分可观测异步智能体协同
两人零和博弈;不完美信息,异步智能体协作。
适用于多智能体强化学习等算法的标准测试环境,相关算法的研究将推动多智能体合作领域的研究,可用于解决兵棋AI人机对抗挑战。
继星际争霸人机对抗突破之后,兵棋推演作为人机对抗的下一个挑战,将牵引智能决策技术新的发展[1,2]。兵棋推演的智能决策技术与挑战[3]一文指出了兵棋AI研发的挑战问题如算子异步协同、非对称环境决策等,为了促进学术界更好针对如上问题开展研究,凝练兵棋AI关键问题,开放学习标准环境,填补兵棋决策智能研究关键问题基准学习环境空白。
兵棋子环境-部分可观测异步智能体协同(POCA)[4],致力于解决部分可观测环境下的智能体异步协同问题。POAC是一种轻量级、灵活、易用的环境,可以由用户配置,以满足不同的实验需求。其支持self-play模式、人机等多种模式。POCA提供了6个不同难度的训练场景,并将基于规则的AI作为对手,其内置包括QMIX,VDN,Qtran,IQL与COMA等在内的代表学习算法。