信息发布

NEWS AND EVENTS

平台动态/最新公告 学术动态 业界动态/赛事

中科院自动化所智能系统团队提出面向人机对抗的博弈学习方法

人机对抗是“图灵测试”的重要手段,作为验证机器智能的试金石,为探寻博弈智能生长机制和关键技术验证提供试验环境、评价标准,具有重要科学研究意义和应用价值。近年来,随着人工智能技术的发展,人机对抗领域取得了一系列突破性的进展,如AlphaGo、Libratus以及AlphaStar分别在围棋、二人无限注德州扑克以及星际争霸2中击败了人类职业选手。然而,当前大部分研究基于传统机器学习方法——以最大化收益/最小化损失为学习目标,将对手视为被动反馈的环境中的一部分,忽略了对手的理性和策略性,导致在非平稳环境中缺乏理论保证,难以处理复杂人机对抗中多个趋利的智能体共同学习、相互对抗的非平稳任务。如何从理论和方法上高效、稳定求解对抗任务中的博弈策略是目前国际上的研究热点和难点。近期,中科院自动化所智能系统团队提出了面向人机对抗的博弈学习方法,该方法结合博弈论和机器学习,从人机对抗任务出发,充分考虑对手的策略性回应(strategic response),基于博弈论从建模、解概念定义及求解出发设计学习方法,以收敛到智能体的策略均衡为学习目标,并利用机器学习方法帮助形成稳定、高效、可扩展的博弈求解算法。人机对抗中的博弈学习方法是智能系统团队面向人机对抗智能研究的核心环节,如图1所示,人机对抗智能技术提出了人-机-物三元博弈问题定义,博弈学习方法给出了三元博弈学习的内涵、组成要素和解决复杂人对抗任务的方法步骤,并在典型人机对抗任务如兵棋推演、德州扑克等场景进行验证,以解决复杂人机对抗任务中的关键科学问题。上述研究成果已经发表在中国科学、计算机学报、自动化学报、IEEE Trans. On TOG、AAAI等国内外重要期刊与会议上,探索了博弈智能通往自主进化智能的可行性与路径。图1 人机对抗智能技术欢迎关注人机对抗门户网站—图灵网(http://turingai.ia.ac.cn/),共同学习、交流。参考文献:[1] 黄凯奇,兴军亮,张俊格,倪晚成, “人机对抗智能技术”,中国科学:信息科学, 2020, 50(4):540-550.[2] 周雷,尹奇跃,黄凯奇. “人机对抗中的博弈学习方法”, 计算机学报,2022. (https://cjc.ict.ac.cn/online/bfpub/zl-2022323165812.pdf)[3] 尹奇跃,赵美静,倪晚成,张俊格,黄凯奇. “兵棋推演的智能决策技术与挑战”. 自动化学报,2021,47:1–15.[4] P. Xu, Q. Yin, J. Zhang, K Huang. “Deep reinforcement learning with part-aware exploration bonus in video games”. IEEE Transactions on Games, 2021.[5] W. Huang, J. Zhang, K Huang. “Bootstrap estimated uncertainty of the environment model for model-based reinforcement learning”. AAAI, 2019.[6] W Huang, Q Yin, J Zhang, K Huang. “Learning to Reweight Imaginary Transitions for Model-Based Reinforcement Learning”. AAAI, 2021.[7] Q Zhou, D Bai, J Zhang, F Duan, K Huang. “DecisionHoldem: safe depth-limited solving with diverse opponents for imperfect-information games”. arXiv:2201.11580, 2022.

从人机对抗提出视觉跟踪智能评估新方法【TPAMI】

在复杂场景尤其是对抗环境下,大量在实验环境下性能优秀的算法依旧与人类视觉感知能力存在巨大的鸿沟。这一现状表明,合理的评测方式不应局限于机器与机器进行性能对比,而应将“人”的因素加入到回路中,根据人类的能力对机器进行更加有效的评估。中科院自动化所智能系统与工程研究中心立足人机对抗智能技术研究[1],并从人机对抗智能评测角度提出了视觉智能发展方向:视觉图灵[2]。视觉图灵是以类人视觉为标准的评估体系,旨在打破机器和人类认知的鸿沟。目前主流的视觉智能评估方法是基于大规模数据、大模型参数开展的,如团队针对视觉跟踪任务,构建大规模广覆盖单目标视觉跟踪评估平台GOT-10k[3],并提出训练与测试类别不重合的评估准测来度量算法在开集测试下的性能,与此不同,中心从“人机对抗”出发提出了视觉跟踪智能评估新方法,进一步对现有视觉跟踪智能方法的局限性进行分析,具体从拓展视觉跟踪任务、构建对抗实验环境和提出智能评估新方法三方面开展:类人跟踪新任务:人类可以在任意场景中持续定位任意目标,在复杂场景尤其是对抗环境下依旧保持鲁棒跟踪能力。然而,目前的单目标跟踪任务因包含众多约束条件而被限制在简单场景下,导致现有跟踪方法无法具备“类人”的鲁棒跟踪能力。因此,团队首先拓展单目标跟踪任务的边界,并提出全局实例跟踪任务(Global Instance Tracking, GIT),旨在对人类视觉跟踪能力进行精确建模,使任务的应用范围进一步拓展至对抗场景中。高质量对抗跟踪环境:真实世界包含诸多挑战因素和对抗场景,但目前的单目标跟踪基准主要由简单场景构成,与真实应用环境具有较大差异。因此,团队基于任务特点构建全局实例跟踪智能评估平台 VideoCube,旨在为算法提供一个近似于真实世界的高质量环境。VideoCube包含丰富的对象类别、场景类型、运动模式和大量挑战属性,并充分涵盖被其他数据集所忽略的复杂场景和对抗场景,实现对真实世界的精确刻画。人机对抗智能评估方法:团队从“人机对抗”的角度出发,首次在视觉物体跟踪任务中引入人类实验者,旨在以人类视觉跟踪能力为基准,全面度量算法的智能程度。实验结果表明,在运动较为平缓的视频帧,现有目标跟踪方法与人类视觉跟踪能力相近。但在复杂场景尤其是对抗场景下,人类视觉跟踪能力要优于算法。图1 VideoCube代表性视频示意图。每段视频均包含丰富的挑战因素,并充分涵盖被其他数据集所忽略的复杂场景和对抗场景,实现对真实世界的精确刻画。图2 视觉跟踪实验及部分结果示意图(b图中绿色为目标真实位置,红色为算法结果,白色圆点为人眼注视位置)。综上,这一工作以“人机对抗”为引导,在任务设定、环境构建和智能评估三个维度进行创新,成功将“视觉图灵”应用于单目标跟踪任务中,为实现近似或超越人类的跟踪算法提供研究基础,同时也为基于“视觉图灵”开展计算机视觉任务研究提供一种可行的范式。相关研究成果Global Instance Tracking: Locating Target More Like Humans于2022年2月被IEEETransactions on Pattern Analysis and Machine Intelligence(TPAMI)期刊正式录用。 论文信息:Shiyu Hu, Xin Zhao, Lianghua Huang, andKaiqi Huang. “Global Instance Tracking: Locating Target More Like Humans”, IEEETransactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022.参考文献:[1] 黄凯奇,兴军亮,张俊格,倪晚成,人机对抗智能技术,中国科学:信息科学, 2020, 50(4):540-550,  DOI:10.1360/N112019-00048.[2] 黄凯奇,赵鑫,李乔哲,胡世宇,视觉图灵:从人机对抗看计算机视觉下一步发展,图学学报,2021, 42(3):339-348, DOI:10.11996/JG.j.2095-302X.2021030339.[3] Lianghua Huang, Xin Zhao, and Kaiqi Huang. “GOT-10k: A Large High-diversity Benchmark for Generic ObjectTracking in the Wild”, IEEE Transactions on Pattern Analysis and MachineIntelligence (TPAMI), 2021, 43(5): 1562-1577, DOI:10.1109/TPAMI.2019.2957464.

强化学习中图像局部区域敏感的探索奖励【ToG 2021】

近日,中科院自动化所智能系统与工程研究中心团队在游戏AI领域重要期刊IEEE Transactions on Games发表论文Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games。团队针对强化学习中的高维环境探索问题,提出了一种图像局部区域敏感的奖励构造机制:通过在标准的随机蒸馏网络中引入由注意力网络产生的与智能体决策相关的注意图,实现奖励信号对图像中局部重要区域的感知。团队在标准的强化学习 Atari 基准测试中的部分视频游戏上验证了方法的有效性。实验结果显示新方法与主流的探索方法相比实现了明显的性能提升。强化学习算法依赖于精心设计的环境奖励。然而,具有稠密奖励的环境很少见,这促使学界设计鼓励探索的人工奖励。好奇心是一种成功的人工奖励函数,它使用预测误差作为奖励信号。在之前的工作中,用于产生人工奖励的预测问题在像素空间而不是可学习的特征空间中进行了优化,以避免特征变化引起的随机性。然而,这些方法忽略了图像中占比很小,但很重要的信息,比如角色位置的信息,这使得这些方法无法生成准确的人工奖励。在本文中,我们首先证实了为现有的基于预测的探索方法引入预训练特征的有效性,然后设计了一种注意力图机制来离散化在线学习的特征,从而保证在线学习特性的同时减少这一过程引起随机性对人工奖励的影响。图表 1 方法流程图我们的目标是构建一种基于预测误差的探索方法,该方法可以使用在线学习的特征来生成更准确的探索奖励。一个简单的想法是将学习到的特征作为预测问题的附加输入。但是,只有在整个训练期间使得将观测值映射到特征的编码函数参数固定时,此方法才有效。如果编码函数不断地变化,则同一观察相对应的特征在不同时间是不同的。这导致基于预测的探索方法无法对熟悉的观测值给出低的奖励,因为此时观测对应的特征编码是新颖的。这与基于误差的方法的基本思想背道而驰,即对熟悉的状态提供低的奖励,对新颖的状态提供高的奖励。我们的核心思想是控制特征的变化范围,我们通过将连续空间中的学习到的特征映射到离散空间来实现这一目标。我们认为离散化可以缓解特征变化对基于奖励的方法的影响。我们进一步发现可以通过引入空间注意机制来以无监督的方式生成这种离散编码。具体来说,我们训练一个额外的网络生成注意力图。注意力图中的值表示观察的每个部分对代理任务的重要程度。之后,我们对注意力图中前n个大的元素取值为1,对其他元素取值为0,以获得与所学习特征相对应的离散编码。图表 2 注意力图示意以及不同输入对最终性能的影响

强化学习中环境模型利用新机制【AAAI 2021】

  近日,中科院自动化所智能系统中心团队在机器学习领域顶级会议AAAI发表论文Learning to reweight imaginary transitions for model-based reinforcement learning。团队针对强化学习中环境建模偏差带来的瓶颈问题,提出了一种可学习的模型利用机制:通过训练一个权重网络来调整环境模型生成样本的权重,使得重加权后的生成样本对策略优化过程的负面影响最小化。在MUJOCO环境多个强化学习任务上,该方法达到的效果超过当前最优的基于模型(model-based)和无模型(model-free)的强化学习方法。  强化学习主要用于解决智能体(agent)如何与环境进行交互从而最大化回报的问题。强化学习方法可分为两类:无模型方法和基于模型的方法。前者直接使用智能体与环境交互产生的轨迹来更新策略,其在许多复杂控制任务上均取得了优秀的效果[1-2],但该类方法的训练往往需要大量的交互数据,这一缺陷限制了该类方法的应用场景。针对这一缺陷,后者先使用交互产生的轨迹来训练一个动力学模型(dynamics model),然后用该模型模拟环境随智能体行动而产生的状态变化和反馈的奖励。这样的模型可以用于智能体决策时的实时规划,也可以用于生成大量虚拟轨迹来进行策略更新。基于此,学习到最优策略所需的真实交互数据就会减少。  然而,基于模型的强化学习方法所能达到的性能上限却受限于学习到的动力学模型的预测精度。模型误差往往会导致强化学习算法陷入局部最优,甚至可能导致训练过程崩溃。之前的研究工作[3-5]考虑调整动力学模型的利用方式,以此来减小模型误差对策略优化过程的影响,例如:只使用预测不确定度低的虚拟样本来更新策略[4]等。但这些调整方案都是预先设定的固定方案,无法在策略优化过程中自适应地调整,这导致算法需要较多的人工参与,并且存在生成数据浪费的情况,例如:当策略价值评估偏差较大时,带有少量预测偏差的虚拟样本也能用于训练。  该研究工作希望在抑制模型误差对策略优化过程产生负面影响的同时最大化地利用这些生成数据,从而提出根据每个生成样本对策略优化过程的影响来调整它们各自的权重。受“交叉验证”思想的启发,作者尝试构建以下流程来调整权重:针对每个生成样本,首先,使用它来更新价值和策略网络;然后,在真实数据上计算神经网络更新前后损失值的变化;最后,根据损失值的变化调整该样本的权重,例如:损失值减小,则说明该样本对神经网络的训练起正面作用,应该增加该样本的权重,反之则减少。显然,上述流程的计算代价极大。为了高效地实现这一权重调节机制,作者引入一个权重预测网络(网络结构如图1(右)所示),并按照上述流程对该网络进行训练:使用权重预测网络对一批生成样本进行权重预测,使用加权后的样本更新价值和策略网络,以更新前后损失值的变化作为优化目标,按照链式法则计算梯度并更新权重预测网络(算法的整体框架如图1(左)所示)。  在MUJOCO环境多个强化学习任务上,文中的方法取得的效果超过当前最优的基于模型和无模型的强化学习方法(如图2所示)。此外,使用学习到的权重函数进行重加权后,价值网络的预测误差明显下降,说明该模型利用机制的确能减小模型误差对训练过程的负面影响。图1:整体框架。权重预测网络的训练过程(左):计算价值网络在使用加权样本训练前后的验证集上的损失值之差,并利用链式法则来更新权重预测网络。权重预测网络的网络结构(右)针对生成序列中的每一个(当前状态,动作,下一状态,奖励)序对,序列化地预测权重,输入信息包括:前驱序对的信息,当前状态,动作以及下一状态和奖励的不确定度估计。图2:在MUJOCO环境中多个强化学习任务上,文中方法(ReW-PE-SAC) 可以达到了良好的性能 图3:使用文中方法(红色)进行重加权后,价值网络的预测误差明显下降   参考文献     [1] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning. Nature, 2015: 529-533.     [2] Haarnoja T, Zhou A, Abbeel P, et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. International Conference on Machine Learning, 2018: 1861-1870.     [3] Heess N, Wayne G, Silver D, et al. Learning continuous control policies by stochastic value gradients. Advances in Neural Information Processing Systems, 2015: 2944-2952.     [4] Kalweit G, Boedecker J. Uncertainty-driven imagination for continuous deep reinforcement learning. Conference on Robot Learning, 2017: 195-206.     [5] Janner M, Fu J, Zhang M, et al. When to trust your model: Model-based policy optimization. Advances in Neural Information Processing Systems, 2019: 12519-12530.

面向德州扑克:中科院自动化所智能系统中心团队建立大规模不完美信息博弈研究基准【arXiv 2020】

  近日,中科院自动化所智能系统与工程研究中心团队发表论文OpenHoldem: An open toolkit for large-scale imperfect-Information game research。针对大规模不完美信息博弈研究领域缺少开放性评测环境及基准的问题,论文从三个方面给出了系统性的解决方案。首先,论文提出了一套标准化的评估方法可以多角度评测AI的性能;其次,论文提供了一系列高水平德州扑克基准AI供研究者在线测试及改进;最后,论文公开了一个用户友好的在线比赛平台以方便研究者进行AI大规模测试。OpenHoldem致力于推动大规模不完美信息博弈领域理论与技术的突破,同时促进该领域重要科学问题的研究,比如不确定性对手建模、大规模博弈均衡求解以及人机交互学习等。  相关论文地址:http://arxiv.org/abs/2012.06168   作为大规模不完美信息博弈研究的一个重要实验环境,德州扑克一直受到学术界的广泛关注。近年来,国外德州扑克AI的研发取得了一系列突破,产生了一系列可以战胜人类专业选手的德州扑克AI。然而,由于相关研究细节未完全公开、AI测试基准也不统一,德州扑克AI的研发对于感兴趣的研究者来说仍然充满挑战,这样的现状严重阻碍了该领域的进一步发展。基于此,自动化所智能系统与工程研究中心团队在论文中提出了OpenHoldem:一个以德州扑克为具体研究对象的大规模不完美信息博弈开放研究平台。  在评估方法方面,论文提出了多种强随机博弈AI性能评测算法,可以全方位多角度地对AI性能进行准确客观的评估。最直接的AI性能评测方式是基于AI之间的对抗结果进行评估,但由于德州扑克博弈随机性大,结果只有在大量的对抗下才具有统计意义。为此,论文采用重复扑克、方差缩减等评测算法来大幅降低评测所需的对抗局数;另外,只基于AI之间的对抗并不能衡量AI的最差性能,论文采用了局部最优响应算法来近似计算AI的利用度,以此来衡量AI面对最具针对性对手时的性能。  在基准AI方面,论文提供了知识驱动型、数据驱动型、离线学习型、在线适应型等多种不同种类的高水平两人/多人德州扑克AI。知识驱动型AI是根据德州扑克专业玩家的经验总结得到的,它可以处理德州扑克博弈中遇到的常见情况,研究者可以与知识驱动型AI进行对比来初步验证AI实现的正确性;论文同时提供了一个DeepStack AI(M. Moravčík, Science, 2017)的复现版本,复现过程中使用了12台8 GPU卡的高性能服务器并行生成了千万量级的训练数据,该AI可以战胜ACPC竞赛冠军Slumbot AI(见下图)。  在测试平台方面,论文提供了一个公开的测试平台(可通过http://holdem.ia.ac.cn/进行访问)来方便研究者进行AI测试。平台内置了所有的基准AI和评测算法;支持人人、机机、人机等多种对抗模式;支持多终端并发访问;支持AI分布式并行测试。同时,平台还提供了面向AI研发的工具包,包括AI编程接口、AI开发文档以及博弈复盘服务;平台可接收团队/个人的自研AI,并可将高水平AI纳入作为新的基准,平台的最终目标是构建德州扑克大规模不完美信息博弈领域的标准模型库。  通过论文开放的大规模不完美信息博弈研究平台OpenHoldem,自动化所智能系统与工程研究中心团队希望在国内营造和催生智能博弈相关基础研究的生态环境,带动和激发更大范围和规模的智能博弈基础研究力量进行核心技术攻坚。  走向通用人工智能前路漫漫,让我们共同努力,共同推动智能博弈技术的变革与突破!

会聊天的智能体能更好地与人类合作【Nature Communications 2018】

近日,一家国际团队开发了一种人工智能算法,它在社交技能方面超过了人类,能与人或机器合作,玩各种各样的双人游戏。该算法被称为S#(“sharp”),麻省理工学院媒体艺术与科学副教授Iyad Rahwan博士领导的研究人员对其进行了测试。在机器与机器、人类与机器和人类与人类三种类型的交互中,大多数情况下,使用S#编程的机器在寻找对双方都有利的折衷方案时,要优于人类。研究报告的主要作者、计算机科学教授Jacob Crandall说:“如果两个人坦诚相待,彼此忠诚,那么他们就能和机器做得一样好了。”然而,事实上,接近一半的测试者都撒了谎。因此,从本质上讲,该算法的道德感更强(因为它被编程为不说谎),而且它一旦参与合作,也更容易保持下去。Crandall说:“我们的最终目标是,理解人与人合作背后的数学原理,以及找到人工智能发展社交技能需要具备的属性。”“人工智能要对我们做出回应,并清楚地表达自己在做什么。”它必须能够与他人进行互动。如何通过与AI聊天帮助人类增强合作一个重要发现是:使用口语化的短语(在研究中称为“廉价谈话”)可以增强合作。在测试中,如果人类参与者与机器合作,机器可能会给出“甜蜜”的回应,比如,“我们发财了!”或“我很开心接受你最后的提议”。如果参与者想要背叛机器,或退出之前达成的协议,机器可能就会说“诅咒你!”“你会为此付出代价的!”甚至“真不要脸!”之类的话。而当机器使用廉价谈话时,人类往往无法分辨对方是人还是机器,这有点像小型的“图灵测试”。Crandall希望,研究结果可以对人际关系产生长远影响。他说:“社会中的人际关系一直很紧张。多年好友也可能一夜之间反目成仇。这台机器比人更容易找到双方都能接受的折衷方案,所以它可能教会我们如何更好地处理人际关系。”该研究的详细内容已发布于《自然通讯》。论文《与机器合作》(Cooperating with machines)摘要自从艾伦·图灵提出人工智能以来,人工智能技术是否取得进步的衡量标准,通常是以机器能否在博弈类游戏(例如,国际象棋,德州扑克或围棋)中击败人类来衡量的。大家对人机合作能给人类带来多少益处的关注比较少。合作不需要纯粹的计算能力,而是通过直觉、文化规范、情感、信号和预先进化的倾向来促成的。我们开发了一种算法,结合了最先进的强化学习算法与信号机制。结果表明,该算法能在不同的两人重复随机博弈中,与人类和其他相当于人类合作水平的算法相配合。这些结果表明,使用一组能取得非凡效果但方式简单的算法机制,可以实现一般的人机合作。
推荐阅读
问题反馈
请将您的宝贵意见反馈给我们