开放平台详情-人机对抗智能

平台名称：

兵棋子环境-强随机与高风险多智能体学习

博弈特点：

两人零和博弈；不完美信息；强随机与高风险环境的智能体协作。

潜在应用：

适用于含有随机性因素的多智能体强化学习等算法的标准测试环境，可应用于多智能体高效探索、奖励不确定、安全的多智能体强化学习等问题关键算法验证。

平台简介：

继Deepmind星际争霸智能技术取得突破之后，兵棋推演作为人机对抗的下一个挑战，将牵引智能决策技术新的发展^[1,2]，其独特的智能体异步协同、非对称环境决策等挑战性问题吸引着博弈智能研究者的持续关注^[3]。为了促进学术界更好针对如上问题开展研究，人机对抗智能门户网站将持续发布兵棋AI学习环境，填补兵棋决策智能研究关键问题基准学习环境空白，满足研究人员对标准学习环境库的需求，推动兵棋推演AI的突破。

强随机与高风险多智能体学习环境，取自兵棋推演中智能体受强随机因素影响产生的裁决及其带来的高风险收益/代价问题，使得智能体面临不确定的状态转移及奖励回报等挑战。该环境针对当前学界中多智能体环境缺乏随机因素影响的局限而提出，可应用于多智能体高效探索、奖励不确定、安全的多智能体强化学习等问题关键算法验证。

平台地址：

http://turingai.ia.ac.cn/data_center/show/10

参考文献：
[1] 黄凯奇，兴军亮，张俊格，倪晚成, “人机对抗智能技术”，中国科学：信息科学, 2020, 50(4):540-550.
[2] Qiyue Yin, Jun Yang, Wancheng Ni, Bin Liang, KaiqiHuang. AI in Games: Techniques, Challenges and Opportunities, arXiv:2111.07631.
[3] 尹奇跃，赵美静，倪晚成，张俊格，黄凯奇. “兵棋推演的智能决策技术与挑战”. 自动化学报，2021，47：1–15.