信息发布

NEWS AND EVENTS

平台动态/最新公告 学术动态 业界动态/赛事

中科院自动化所智能系统团队提出面向人机对抗的博弈学习方法

人机对抗是“图灵测试”的重要手段,作为验证机器智能的试金石,为探寻博弈智能生长机制和关键技术验证提供试验环境、评价标准,具有重要科学研究意义和应用价值。近年来,随着人工智能技术的发展,人机对抗领域取得了一系列突破性的进展,如AlphaGo、Libratus以及AlphaStar分别在围棋、二人无限注德州扑克以及星际争霸2中击败了人类职业选手。然而,当前大部分研究基于传统机器学习方法——以最大化收益/最小化损失为学习目标,将对手视为被动反馈的环境中的一部分,忽略了对手的理性和策略性,导致在非平稳环境中缺乏理论保证,难以处理复杂人机对抗中多个趋利的智能体共同学习、相互对抗的非平稳任务。如何从理论和方法上高效、稳定求解对抗任务中的博弈策略是目前国际上的研究热点和难点。近期,中科院自动化所智能系统团队提出了面向人机对抗的博弈学习方法,该方法结合博弈论和机器学习,从人机对抗任务出发,充分考虑对手的策略性回应(strategic response),基于博弈论从建模、解概念定义及求解出发设计学习方法,以收敛到智能体的策略均衡为学习目标,并利用机器学习方法帮助形成稳定、高效、可扩展的博弈求解算法。人机对抗中的博弈学习方法是智能系统团队面向人机对抗智能研究的核心环节,如图1所示,人机对抗智能技术提出了人-机-物三元博弈问题定义,博弈学习方法给出了三元博弈学习的内涵、组成要素和解决复杂人对抗任务的方法步骤,并在典型人机对抗任务如兵棋推演、德州扑克等场景进行验证,以解决复杂人机对抗任务中的关键科学问题。上述研究成果已经发表在中国科学、计算机学报、自动化学报、IEEE Trans. On TOG、AAAI等国内外重要期刊与会议上,探索了博弈智能通往自主进化智能的可行性与路径。图1 人机对抗智能技术欢迎关注人机对抗门户网站—图灵网(http://turingai.ia.ac.cn/),共同学习、交流。参考文献:[1] 黄凯奇,兴军亮,张俊格,倪晚成, “人机对抗智能技术”,中国科学:信息科学, 2020, 50(4):540-550.[2] 周雷,尹奇跃,黄凯奇. “人机对抗中的博弈学习方法”, 计算机学报,2022. (https://cjc.ict.ac.cn/online/bfpub/zl-2022323165812.pdf)[3] 尹奇跃,赵美静,倪晚成,张俊格,黄凯奇. “兵棋推演的智能决策技术与挑战”. 自动化学报,2021,47:1–15.[4] P. Xu, Q. Yin, J. Zhang, K Huang. “Deep reinforcement learning with part-aware exploration bonus in video games”. IEEE Transactions on Games, 2021.[5] W. Huang, J. Zhang, K Huang. “Bootstrap estimated uncertainty of the environment model for model-based reinforcement learning”. AAAI, 2019.[6] W Huang, Q Yin, J Zhang, K Huang. “Learning to Reweight Imaginary Transitions for Model-Based Reinforcement Learning”. AAAI, 2021.[7] Q Zhou, D Bai, J Zhang, F Duan, K Huang. “DecisionHoldem: safe depth-limited solving with diverse opponents for imperfect-information games”. arXiv:2201.11580, 2022.

从人机对抗提出视觉跟踪智能评估新方法【TPAMI】

在复杂场景尤其是对抗环境下,大量在实验环境下性能优秀的算法依旧与人类视觉感知能力存在巨大的鸿沟。这一现状表明,合理的评测方式不应局限于机器与机器进行性能对比,而应将“人”的因素加入到回路中,根据人类的能力对机器进行更加有效的评估。中科院自动化所智能系统与工程研究中心立足人机对抗智能技术研究[1],并从人机对抗智能评测角度提出了视觉智能发展方向:视觉图灵[2]。视觉图灵是以类人视觉为标准的评估体系,旨在打破机器和人类认知的鸿沟。目前主流的视觉智能评估方法是基于大规模数据、大模型参数开展的,如团队针对视觉跟踪任务,构建大规模广覆盖单目标视觉跟踪评估平台GOT-10k[3],并提出训练与测试类别不重合的评估准测来度量算法在开集测试下的性能,与此不同,中心从“人机对抗”出发提出了视觉跟踪智能评估新方法,进一步对现有视觉跟踪智能方法的局限性进行分析,具体从拓展视觉跟踪任务、构建对抗实验环境和提出智能评估新方法三方面开展:类人跟踪新任务:人类可以在任意场景中持续定位任意目标,在复杂场景尤其是对抗环境下依旧保持鲁棒跟踪能力。然而,目前的单目标跟踪任务因包含众多约束条件而被限制在简单场景下,导致现有跟踪方法无法具备“类人”的鲁棒跟踪能力。因此,团队首先拓展单目标跟踪任务的边界,并提出全局实例跟踪任务(Global Instance Tracking, GIT),旨在对人类视觉跟踪能力进行精确建模,使任务的应用范围进一步拓展至对抗场景中。高质量对抗跟踪环境:真实世界包含诸多挑战因素和对抗场景,但目前的单目标跟踪基准主要由简单场景构成,与真实应用环境具有较大差异。因此,团队基于任务特点构建全局实例跟踪智能评估平台 VideoCube,旨在为算法提供一个近似于真实世界的高质量环境。VideoCube包含丰富的对象类别、场景类型、运动模式和大量挑战属性,并充分涵盖被其他数据集所忽略的复杂场景和对抗场景,实现对真实世界的精确刻画。人机对抗智能评估方法:团队从“人机对抗”的角度出发,首次在视觉物体跟踪任务中引入人类实验者,旨在以人类视觉跟踪能力为基准,全面度量算法的智能程度。实验结果表明,在运动较为平缓的视频帧,现有目标跟踪方法与人类视觉跟踪能力相近。但在复杂场景尤其是对抗场景下,人类视觉跟踪能力要优于算法。图1 VideoCube代表性视频示意图。每段视频均包含丰富的挑战因素,并充分涵盖被其他数据集所忽略的复杂场景和对抗场景,实现对真实世界的精确刻画。图2 视觉跟踪实验及部分结果示意图(b图中绿色为目标真实位置,红色为算法结果,白色圆点为人眼注视位置)。综上,这一工作以“人机对抗”为引导,在任务设定、环境构建和智能评估三个维度进行创新,成功将“视觉图灵”应用于单目标跟踪任务中,为实现近似或超越人类的跟踪算法提供研究基础,同时也为基于“视觉图灵”开展计算机视觉任务研究提供一种可行的范式。相关研究成果Global Instance Tracking: Locating Target More Like Humans于2022年2月被IEEETransactions on Pattern Analysis and Machine Intelligence(TPAMI)期刊正式录用。 论文信息:Shiyu Hu, Xin Zhao, Lianghua Huang, andKaiqi Huang. “Global Instance Tracking: Locating Target More Like Humans”, IEEETransactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022.参考文献:[1] 黄凯奇,兴军亮,张俊格,倪晚成,人机对抗智能技术,中国科学:信息科学, 2020, 50(4):540-550,  DOI:10.1360/N112019-00048.[2] 黄凯奇,赵鑫,李乔哲,胡世宇,视觉图灵:从人机对抗看计算机视觉下一步发展,图学学报,2021, 42(3):339-348, DOI:10.11996/JG.j.2095-302X.2021030339.[3] Lianghua Huang, Xin Zhao, and Kaiqi Huang. “GOT-10k: A Large High-diversity Benchmark for Generic ObjectTracking in the Wild”, IEEE Transactions on Pattern Analysis and MachineIntelligence (TPAMI), 2021, 43(5): 1562-1577, DOI:10.1109/TPAMI.2019.2957464.
推荐阅读
问题反馈
请将您的宝贵意见反馈给我们