兵棋子环境-可变智能体协作学习
两人零和博弈;不完美信息,异步智能体协作
适用于多智能体强化学习等算法的标准测试环境,相关算法的研究将推动多智能体合作领域的研究,应对因各种因素(如追加、失联等)造成的动态变化的智能体协作,可用于解决兵棋AI人机对抗挑战。
继Deepmind星际争霸智能技术取得突破之后,兵棋推演作为人机对抗的下一个挑战,将牵引智能决策技术新的发展[1, 2],其独特的智能体异步协同、非对称环境决策等挑战性问题吸引着博弈智能研究者的持续关注[3],为了促进学术界更好针对如上问题开展研究,人机对抗智能门户网站将持续发布兵棋AI学习环境,填补兵棋决策智能研究关键问题基准学习环境空白,满足研究人员对标准学习环境库的需求,推动兵棋推演AI技术的突破。
可变智能体协作学习对应兵棋推演中智能体因聚合与解聚合造成的可变化智能体协作问题,即如何实现对抗过程中“多智能体合并为一“以及“单智能体拆分为多”下的智能体控制与协作,需要有效控制新产生的、变化属性的智能体。