兵棋子环境-强随机与高风险多智能体学习
两人零和博弈;不完美信息;强随机与高风险环境的智能体协作。
适用于含有随机性因素的多智能体强化学习等算法的标准测试环境,可应用于多智能体高效探索、奖励不确定、安全的多智能体强化学习等问题关键算法验证。
继Deepmind星际争霸智能技术取得突破之后,兵棋推演作为人机对抗的下一个挑战,将牵引智能决策技术新的发展[1,2],其独特的智能体异步协同、非对称环境决策等挑战性问题吸引着博弈智能研究者的持续关注[3]。为了促进学术界更好针对如上问题开展研究,人机对抗智能门户网站将持续发布兵棋AI学习环境,填补兵棋决策智能研究关键问题基准学习环境空白,满足研究人员对标准学习环境库的需求,推动兵棋推演AI的突破。
强随机与高风险多智能体学习环境,取自兵棋推演中智能体受强随机因素影响产生的裁决及其带来的高风险收益/代价问题,使得智能体面临不确定的状态转移及奖励回报等挑战。该环境针对当前学界中多智能体环境缺乏随机因素影响的局限而提出,可应用于多智能体高效探索、奖励不确定、安全的多智能体强化学习等问题关键算法验证。