中科院自动化所智能系统团队提出面向人机对抗的博弈学习方法
发布时间: 2022-02-25
人机对抗是“图灵测试”的重要手段,作为验证机器智能的试金石,为探寻博弈智能生长机制和关键技术验证提供试验环境、评价标准,具有重要科学研究意义和应用价值。
近年来,随着人工智能技术的发展,人机对抗领域取得了一系列突破性的进展,如AlphaGo、Libratus以及AlphaStar分别在围棋、二人无限注德州扑克以及星际争霸2中击败了人类职业选手。然而,当前大部分研究基于传统机器学习方法——以最大化收益/最小化损失为学习目标,将对手视为被动反馈的环境中的一部分,忽略了对手的理性和策略性,导致在非平稳环境中缺乏理论保证,难以处理复杂人机对抗中多个趋利的智能体共同学习、相互对抗的非平稳任务。如何从理论和方法上高效、稳定求解对抗任务中的博弈策略是目前国际上的研究热点和难点。
近期,中科院自动化所智能系统团队提出了面向人机对抗的博弈学习方法,该方法结合博弈论和机器学习,从人机对抗任务出发,充分考虑对手的策略性回应(strategic response),基于博弈论从建模、解概念定义及求解出发设计学习方法,以收敛到智能体的策略均衡为学习目标,并利用机器学习方法帮助形成稳定、高效、可扩展的博弈求解算法。
人机对抗中的博弈学习方法是智能系统团队面向人机对抗智能研究的核心环节,如图1所示,人机对抗智能技术提出了人-机-物三元博弈问题定义,博弈学习方法给出了三元博弈学习的内涵、组成要素和解决复杂人对抗任务的方法步骤,并在典型人机对抗任务如兵棋推演、德州扑克等场景进行验证,以解决复杂人机对抗任务中的关键科学问题。上述研究成果已经发表在中国科学、计算机学报、自动化学报、IEEE Trans. On TOG、AAAI等国内外重要期刊与会议上,探索了博弈智能通往自主进化智能的可行性与路径。
图1 人机对抗智能技术
欢迎关注人机对抗门户网站—图灵网(http://turingai.ia.ac.cn/),共同学习、交流。
参考文献:
[1] 黄凯奇,兴军亮,张俊格,倪晚成, “人机对抗智能技术”,中国科学:信息科学, 2020, 50(4):540-550.
[2] 周雷,尹奇跃,黄凯奇. “人机对抗中的博弈学习方法”, 计算机学报,2022. (https://cjc.ict.ac.cn/online/bfpub/zl-2022323165812.pdf)
[3] 尹奇跃,赵美静,倪晚成,张俊格,黄凯奇. “兵棋推演的智能决策技术与挑战”. 自动化学报,2021,47:1–15.
[4] P. Xu, Q. Yin, J. Zhang, K Huang. “Deep reinforcement learning with part-aware exploration bonus in video games”. IEEE Transactions on Games, 2021.
[5] W. Huang, J. Zhang, K Huang. “Bootstrap estimated uncertainty of the environment model for model-based reinforcement learning”. AAAI, 2019.
[6] W Huang, Q Yin, J Zhang, K Huang. “Learning to Reweight Imaginary Transitions for Model-Based Reinforcement Learning”. AAAI, 2021.
[7] Q Zhou, D Bai, J Zhang, F Duan, K Huang. “DecisionHoldem: safe depth-limited solving with diverse opponents for imperfect-information games”. arXiv:2201.11580, 2022.