信息发布

NEWS AND EVENTS

平台动态/最新公告 学术动态 业界动态/赛事

强化学习中图像局部区域敏感的探索奖励【ToG 2021】

近日,中科院自动化所智能系统与工程研究中心团队在游戏AI领域重要期刊IEEE Transactions on Games发表论文Deep Reinforcement Learning with Part-aware Exploration Bonus in Video Games。团队针对强化学习中的高维环境探索问题,提出了一种图像局部区域敏感的奖励构造机制:通过在标准的随机蒸馏网络中引入由注意力网络产生的与智能体决策相关的注意图,实现奖励信号对图像中局部重要区域的感知。团队在标准的强化学习 Atari 基准测试中的部分视频游戏上验证了方法的有效性。实验结果显示新方法与主流的探索方法相比实现了明显的性能提升。强化学习算法依赖于精心设计的环境奖励。然而,具有稠密奖励的环境很少见,这促使学界设计鼓励探索的人工奖励。好奇心是一种成功的人工奖励函数,它使用预测误差作为奖励信号。在之前的工作中,用于产生人工奖励的预测问题在像素空间而不是可学习的特征空间中进行了优化,以避免特征变化引起的随机性。然而,这些方法忽略了图像中占比很小,但很重要的信息,比如角色位置的信息,这使得这些方法无法生成准确的人工奖励。在本文中,我们首先证实了为现有的基于预测的探索方法引入预训练特征的有效性,然后设计了一种注意力图机制来离散化在线学习的特征,从而保证在线学习特性的同时减少这一过程引起随机性对人工奖励的影响。图表 1 方法流程图我们的目标是构建一种基于预测误差的探索方法,该方法可以使用在线学习的特征来生成更准确的探索奖励。一个简单的想法是将学习到的特征作为预测问题的附加输入。但是,只有在整个训练期间使得将观测值映射到特征的编码函数参数固定时,此方法才有效。如果编码函数不断地变化,则同一观察相对应的特征在不同时间是不同的。这导致基于预测的探索方法无法对熟悉的观测值给出低的奖励,因为此时观测对应的特征编码是新颖的。这与基于误差的方法的基本思想背道而驰,即对熟悉的状态提供低的奖励,对新颖的状态提供高的奖励。我们的核心思想是控制特征的变化范围,我们通过将连续空间中的学习到的特征映射到离散空间来实现这一目标。我们认为离散化可以缓解特征变化对基于奖励的方法的影响。我们进一步发现可以通过引入空间注意机制来以无监督的方式生成这种离散编码。具体来说,我们训练一个额外的网络生成注意力图。注意力图中的值表示观察的每个部分对代理任务的重要程度。之后,我们对注意力图中前n个大的元素取值为1,对其他元素取值为0,以获得与所学习特征相对应的离散编码。图表 2 注意力图示意以及不同输入对最终性能的影响

面向德州扑克:中科院自动化所智能系统中心团队建立大规模不完美信息博弈研究基准【arXiv 2020】

  近日,中科院自动化所智能系统与工程研究中心团队发表论文OpenHoldem: An open toolkit for large-scale imperfect-Information game research。针对大规模不完美信息博弈研究领域缺少开放性评测环境及基准的问题,论文从三个方面给出了系统性的解决方案。首先,论文提出了一套标准化的评估方法可以多角度评测AI的性能;其次,论文提供了一系列高水平德州扑克基准AI供研究者在线测试及改进;最后,论文公开了一个用户友好的在线比赛平台以方便研究者进行AI大规模测试。OpenHoldem致力于推动大规模不完美信息博弈领域理论与技术的突破,同时促进该领域重要科学问题的研究,比如不确定性对手建模、大规模博弈均衡求解以及人机交互学习等。  相关论文地址:http://arxiv.org/abs/2012.06168   作为大规模不完美信息博弈研究的一个重要实验环境,德州扑克一直受到学术界的广泛关注。近年来,国外德州扑克AI的研发取得了一系列突破,产生了一系列可以战胜人类专业选手的德州扑克AI。然而,由于相关研究细节未完全公开、AI测试基准也不统一,德州扑克AI的研发对于感兴趣的研究者来说仍然充满挑战,这样的现状严重阻碍了该领域的进一步发展。基于此,自动化所智能系统与工程研究中心团队在论文中提出了OpenHoldem:一个以德州扑克为具体研究对象的大规模不完美信息博弈开放研究平台。  在评估方法方面,论文提出了多种强随机博弈AI性能评测算法,可以全方位多角度地对AI性能进行准确客观的评估。最直接的AI性能评测方式是基于AI之间的对抗结果进行评估,但由于德州扑克博弈随机性大,结果只有在大量的对抗下才具有统计意义。为此,论文采用重复扑克、方差缩减等评测算法来大幅降低评测所需的对抗局数;另外,只基于AI之间的对抗并不能衡量AI的最差性能,论文采用了局部最优响应算法来近似计算AI的利用度,以此来衡量AI面对最具针对性对手时的性能。  在基准AI方面,论文提供了知识驱动型、数据驱动型、离线学习型、在线适应型等多种不同种类的高水平两人/多人德州扑克AI。知识驱动型AI是根据德州扑克专业玩家的经验总结得到的,它可以处理德州扑克博弈中遇到的常见情况,研究者可以与知识驱动型AI进行对比来初步验证AI实现的正确性;论文同时提供了一个DeepStack AI(M. Moravčík, Science, 2017)的复现版本,复现过程中使用了12台8 GPU卡的高性能服务器并行生成了千万量级的训练数据,该AI可以战胜ACPC竞赛冠军Slumbot AI(见下图)。  在测试平台方面,论文提供了一个公开的测试平台(可通过http://holdem.ia.ac.cn/进行访问)来方便研究者进行AI测试。平台内置了所有的基准AI和评测算法;支持人人、机机、人机等多种对抗模式;支持多终端并发访问;支持AI分布式并行测试。同时,平台还提供了面向AI研发的工具包,包括AI编程接口、AI开发文档以及博弈复盘服务;平台可接收团队/个人的自研AI,并可将高水平AI纳入作为新的基准,平台的最终目标是构建德州扑克大规模不完美信息博弈领域的标准模型库。  通过论文开放的大规模不完美信息博弈研究平台OpenHoldem,自动化所智能系统与工程研究中心团队希望在国内营造和催生智能博弈相关基础研究的生态环境,带动和激发更大范围和规模的智能博弈基础研究力量进行核心技术攻坚。  走向通用人工智能前路漫漫,让我们共同努力,共同推动智能博弈技术的变革与突破!
推荐阅读
问题反馈
请将您的宝贵意见反馈给我们