陆战兵棋平台
现代兵棋推演诞生于1811年,是一种具有“战争迷雾”、人在回路的复杂策略对抗游戏。本平台(“庙算·智胜”即时策略兵棋人机对抗平台)基于战术级陆战手工兵棋规则,将回合制规则实时化,自主研发了陆战即时策略的智能化训练与对抗评估一体化平台。 它基于人工智能前沿理论重构了传统计算机兵棋系统——通过对推演环境、内存训练接口、网络对抗接口的封装,为AI研发提供了超高速单机训练与调试环境(普通PC上分队级内存推演只需要几秒时间);同时提供开放性的AI接入,符合接口规范的AI均可接入平台,在网络上开展机机、人机和人机混合对抗。自2020年研发成型以来,平台先后成功应用于全国人机对抗挑战赛机机对抗、河北省第三届、第四届兵棋推演大赛,并基于本平台首创了兵棋推演AI的“图灵测试”评估模式。 本平台为AI研发提供了开发环境与接口,同时完整保留了实时制陆军战术级兵棋强对抗、不完全信息、“一战一棋”场景复杂多变等决策特点,既适合兵棋爱好者开展推演训练战术与策略,也适合研究人员探索复杂、不完全信息决策问题的求解。
德州扑克
德州扑克相比棋类游戏更为复杂,这是因为它是非零和博弈——选手必须在无法得知赛局所有信息的情况下,制定自己的策略。这样的“不完美信息”博弈更贴近现实生活中解决问题的场景。例如,在拍卖和金融谈判中,就会出现类似情况。而扑克则成为了测试人工智能是否能应对这种情景的平台。德州扑克人工智能需要摸索出在任何情况下,无论对手如何应对,都能必赢的策略。从博弈论来说,德扑AI通过选取GTO最优策略,以达到纳什均衡。换句话说,德扑AI找到了对手的弱点,但没有暴露自己的弱点,找到了一个新的平衡点。简而言之,德扑AI就是利用CFR算法在尝试不同的策略中累积经验和评估选择,不断于决策点复盘后最小化遗憾值。 能够在这种不完美信息博弈中战胜人类,是人类在探索和解决具有不完美信息问题的一大进步。而这些探索在未来也能更好地用于解决同类具有不完美信息的实际问题,例如用于金融和网络安全中的复杂现实世界问题。
兵棋子环境-部分可观测异步智能体协同
继星际争霸人机对抗突破之后,兵棋推演作为人机对抗的下一个挑战,将牵引智能决策技术新的发展[1,2]。兵棋推演的智能决策技术与挑战[3]一文指出了兵棋AI研发的挑战问题如算子异步协同、非对称环境决策等,为了促进学术界更好针对如上问题开展研究,凝练兵棋AI关键问题,开放学习标准环境,填补兵棋决策智能研究关键问题基准学习环境空白。兵棋子环境-部分可观测异步智能体协同(POCA)[4],致力于解决部分可观测环境下的智能体异步协同问题。POAC是一种轻量级、灵活、易用的环境,可以由用户配置,以满足不同的实验需求。其支持self-play模式、人机等多种模式。POCA提供了6个不同难度的训练场景,并将基于规则的AI作为对手,其内置包括QMIX,VDN,Qtran,IQL与COMA等在内的代表学习算法。
德州扑克训练评估平台
游戏作为人工智能研究测试平台有着悠久的历史。最近,使用博弈论推理和学习的方法在不完美信息(特别是扑克类游戏)游戏中取得了显著的成功。不完美信息博弈是一种信息不对称的博弈。与完美信息博弈相比,不完美信息博弈在生活中更为常见。德州扑克作为不完美信息博弈的典型代表,近年也取得突破。Libratus和Deepstack的巨大成功引起了研究者的高度重视。但是以Libratus和Deepstack为代表的高水平德州扑克AI未对外开放代码,同时其相关理论晦涩难懂、技术细节少、模型训练开销大等原因,致使高水平德州扑克AI的复现难度较大,这在很大程度上限制了不完美信息博弈理论与技术的研究和发展。针对模型训练难的问题,我们研发了德州扑克训练评估平台,该平台基于微服务框架打造,集模型训练、模型评估、人机对抗于一体,为开展不完美信息博弈的研究提供了极大便利,帮助智能体开发人员快速掌握智能体完整开发流程和技巧,快速实现AI开发与训练。使研究人员能专注于算法本身的研究,进而提高新算法研究效率。
兵棋子环境-可变智能体协作学习
继Deepmind星际争霸智能技术取得突破之后,兵棋推演作为人机对抗的下一个挑战,将牵引智能决策技术新的发展[1, 2],其独特的智能体异步协同、非对称环境决策等挑战性问题吸引着博弈智能研究者的持续关注[3],为了促进学术界更好针对如上问题开展研究,人机对抗智能门户网站将持续发布兵棋AI学习环境,填补兵棋决策智能研究关键问题基准学习环境空白,满足研究人员对标准学习环境库的需求,推动兵棋推演AI技术的突破。可变智能体协作学习对应兵棋推演中智能体因聚合与解聚合造成的可变化智能体协作问题,即如何实现对抗过程中“多智能体合并为一“以及“单智能体拆分为多”下的智能体控制与协作,需要有效控制新产生的、变化属性的智能体。
兵棋子环境-强随机与高风险多智能体学习
继Deepmind星际争霸智能技术取得突破之后,兵棋推演作为人机对抗的下一个挑战,将牵引智能决策技术新的发展[1,2],其独特的智能体异步协同、非对称环境决策等挑战性问题吸引着博弈智能研究者的持续关注[3]。为了促进学术界更好针对如上问题开展研究,人机对抗智能门户网站将持续发布兵棋AI学习环境,填补兵棋决策智能研究关键问题基准学习环境空白,满足研究人员对标准学习环境库的需求,推动兵棋推演AI的突破。强随机与高风险多智能体学习环境,取自兵棋推演中智能体受强随机因素影响产生的裁决及其带来的高风险收益/代价问题,使得智能体面临不确定的状态转移及奖励回报等挑战。该环境针对当前学界中多智能体环境缺乏随机因素影响的局限而提出,可应用于多智能体高效探索、奖励不确定、安全的多智能体强化学习等问题关键算法验证。
雅达利
Atari 2600是Atari公司于1977年发布的视频游戏。该游戏机包含一系列热门游戏,例如Breakout,Ms. Pacman 和Space Invaders。自从Mnih等人介绍了Deep Q-Networks,2013年,Atari 2600已成为测试新强化学习算法的标准环境。由于Atari 2600的高清视频输入(尺寸为210 x 160,频率为60 Hz)以及游戏之间的任务差异,它一直是具有挑战性的测试平台。 Atari 2600环境最初是通过Arcade学习环境(ALE)提供的。OpenAI Gym封装了这些环境,以创建更加标准化的界面。OpenAI Gym提供59种Atari 2600游戏作为环境。研究人员普遍认为雅达利 2600 系列游戏是用于评定 RL 表现的一个很好的基准,因为每款游戏都足以代表一个实际的挑战,而整个系列包含非常多品种,提供足够的多样化。
星际争霸
《星际争霸》是由暴雪娱乐公司在1998年推出的战争科幻实事策略游戏,以未来宇宙中人类、星灵、异虫三个种族争夺霸权为背景。2010年7月,暴雪娱乐公司推出了《星际争霸》的续作《星际争霸 II》,二代在保持一代的基本玩法的同时引入了很多新兵种。2016年11月,谷歌旗下的DeepMind公司在暴雪娱乐公司举办的BlizzCon 2016会议上与暴雪娱乐公司联合发布了SC2LE(星际争霸 II 机器学习环境)平台,旨在帮助现有的AI系统更方便地访问《星际争霸 II》的游戏环境。该平台主要包括了如下几个组成部分:1,一个供AI访问游戏信息和发送动作的Python接口(PySC2)。2、一个经过匿名化处理的游戏回放录像数据集。3,一个开源的特征层提取工具。4,几个用于训练强化学习智能体的小游戏地图。如今,SC2LE已经成为学术界训练和评估星际争霸人工智能的主要工具。
Universe
Universe是一个OpenAI发布的软件平台,作为评估和训练通用人工智能的软件平台。Universe通过自动启动程序在一个VNC远程桌上进行工作,任何程序都可以转换为一个Gym环境,而无需访问程序内部、源代码或者API。 Universe允许AI智能体像人类一样使用计算机:通过查看屏幕像素并操作虚拟键盘和鼠标。我们必须对AI系统进行我们希望它们完成的所有任务的训练,而Universe让我们在人类可以用计算机完成的任何任务上训练单个智能体。 发行版包含一千种环境,其中包括Flash游戏,浏览器任务以及splither.io和GTA V之类的游戏。Universe包括Arcade Learning Environment中的Atari 2600游戏。 最初的Universe版本包括1,000个Flash游戏(其中100个具有奖励功能)。Universe包含基于浏览器的环境,要求AI智能体像人一样使用视觉像素,键盘和鼠标来阅读,导航和使用web。
足球
足球具有非常悠久的历史,其前身起源于中国古代山东淄州(今淄博市)的球类游戏“蹴鞠”,后经阿拉伯人由中国传至欧洲,逐渐演变发展为现代足球。 在AI领域,足球也被广泛研究。目前学术界主流的实验平台之一是谷歌公司于2019年7月发布的Google Research Football开源环境平台。该平台旨在让强化学习算法通过机器学习掌握足球游戏。该平台使用3D物理引擎模拟足球在现实世界中的运动、撞击等物理现象,在比赛规则方面也完全仿照了现实球赛的足球规则(如球员会因为严重犯规而被红牌罚下)。在面向人工智能的接口方面,该平台同时支持单智能体、多智能体模式,其中单智能体模式下人工智能只能一次控制一名球员(如带球的球员)。在比赛形式上,该平台也同时支持人-机对抗、机-机对抗。此外,该平台还自带了预训练的智能体来供用户来对抗、学习和研究。
ViZDoom
ViZDoom是Google开源的基于第一人称射击游戏Doom的强化学习研究平台。随着深度神经网络的发展,基于视觉的强化学习方法从像素数据中学习并在 Atari 2600 多的游戏上获得了人类水准的性能。然而这些游戏只是使用非现实的 2D 环境和第三人称视角,并没有涉及到与现实类似的任务。ViZDoom可用于从半现实的3D世界中利用第一人称视角获取原始的视觉信息而进行强化学习研究,主要针对的是机器视觉学习,特别是深度强化学习的研究。Vizdoom允许研究者在只使用屏幕 Buffer的情况下开发Bot进行对战,支持多种平台和多种语言的API(C++, Python, Java, Julia),为用户提供对环境的完全控制。ViZDoom的优势和多功能性在于场景机制的可定制性,可以方便地用开源工具编程;同时该平台还具有轻量级,运行速度快的特点,可通过用户自定义脚本实现轻量、快速和高度定制化的训练。
国际象棋
国际象棋游戏主要由棋盘、棋子、游戏规则三部分组成。国际象棋的棋盘为正方形,由32个深色和32个浅色方格交替排列组成,每边8个方格。开局时棋手的棋盘右下角必须为白格,具体摆放为白棋后置于白,黑棋后置于黑格。对弈双方各有16枚棋子,分别为一王、一后、双象(象)、双马(马)、双车(车)和八兵。棋局由白方先下,对弈双方轮流移动棋盘上既有的己方棋子。通常,一步棋只能移动一个棋子。玩家的目标是将对方的国王置于无法避免的威胁之下将死对方。国际象棋游戏过程可以分为三个阶段:开局、中局、残局。国际象棋比较经典的战术有堵塞,引离,闪击等。国际象棋共有10^43到10^50种棋局变化。 2017年DeepMind推出著名的AlphaZero,通过从零学习掌握了国际象棋并打败了国际象棋世界冠军。2019年,DeepMind实现的强化学习开源框架open_spiel中包含了国际象棋这一游戏环境。
刀塔2
《刀塔2》是一个非完美信息实时制多人博弈环境。是目前已知的最接近真实战争环境的博弈测试平台之一。由于其可以对于真实战争场景的高还原度、高度复杂场景的实时对抗、不同军种之间无克制关系等特点,使得其成为了目前最受欢迎的实时对战场景之一。博弈环境设定为十个玩家中的每一个都独立控制一个强大的角色,即“英雄”,他们都具有独特的能力和不同的游戏风格。在比赛中,玩家为他们的英雄收集经验值和物品,以在对战中成功击败对方球队的英雄。刀塔2的国际竞技采用众筹的奖金制度,奖金总额超过3,000万美元,使刀塔2成为目前最赚钱的电子竞技游戏。其收视人数一度达到了百万级别。尽管有人批评其陡峭的学习曲线和整体复杂性,但刀塔2的出色玩法,制作质量和对前任产品的忠诚度收到广泛称赞。刀塔2还被用于通用人工智能的研究当中,其中一个名为OpenAI Five的机器人团队展示了击败专业玩家的能力。
DeepMind Lab
DeepMind Lab是Google开源的AI平台,该平台建立在游戏开发商ID Software公司的《雷神之锤3:竞技场》游戏引擎之上,以丰富的科幻视觉呈现场景,可用的操作能让智能体环顾四周,并以3D的形式移动。示例任务包括收集水果、走迷宫、穿越危险的通道且要避免从悬崖上坠落、使用发射台在平台间移动、玩激光笔、以及快速学习并记住随机生成的环境。 该平台专门为研究通用人工智能和机器学习系统而设计,主要强调原始像素输入、第一人称视角、运动控制、导航、规划、策略、时间,完全自主的智能体必须通过探索周围环境自主学习要执行什么任务。 DeepMind Lab可用于研究智能体如何在大型、部分可视、视觉多样化的环境中学会执行复杂任务,其具有简单灵活的API,可用于探索创造性的任务设计和全新的AI设计并快速迭代。
ELF
ELF是用于实时制博弈的集成平台。ELF 对用于训练的环境和参与者之间互动关系的变化具有非常高的适应性,这样的表现得益于 ELF 采用的 C++/Python 混合框架。ELF 的并行部分是用 C++ 编写的,极大的降低了模拟过程的所需时间。ELF可以用来承载任意用 C/C++编写的博弈,包括 Atari 系列博弈、棋类博弈和物理引擎,只要一个简单的适配软件即可。现代博弈和人机对抗方法经常需要很高的并行训练程度,而ELF所具有的多线程的能力使得其在多样的情境下能够提供更加优越的性能。相比现有的多数使用python作为编程语言的框架,ELF使用 C 线程实现的并行化在多核 CPU 上的拓展性要好得多。 ELF 可以为每一个博弈环境各自分配一个模型,这种情况下每个智能体都有单独的一个模型副本用来进行预测和更新。类似地,可以把多个环境分配给一个模型。ELF具有高度可定制以及统一的接口。在ELF的 RTS 引擎中实现的博弈,可以用原始像素数据或者博弈内部的低维数据进行训练。
围棋
棋牌类策略游戏一直以来都被用作测试计算机智能发展水平的参考标准,而围棋由于其复杂性和规则的确定性, 加之游戏环境可控性和完全信息等特性, 吸引了人工智能领域的持续研究。 近期,基于机器学习的博弈对抗算法在棋牌类策略游戏对抗应用中取得了突破性进展, 其中一个标志性事件就是谷歌的DeepMind公司2016年相继提出的AlphaGo系列技术。随后,AlphaGo的团队于2017,介绍了AlphaGo Zero,该版本无需使用人类游戏数据即可创建,并且比任何以前的版本都强大。 AlphaGo及其继任者背后主要的方法是 Value Networks(价值网络)和 Policy Networks(策略网络)。其中 Value Networks 评估棋盘位置,Policy Networks 选择下棋步法。这些神经网络模型通过一种新的方法训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋(Self-Play)中学到强化学习。2017年4月21日,记录AlphaGo人机世纪对决的纪录片在纽约翠贝卡电影节上映,展示了人机大战的过程,也探讨了人类思维的工作方式和人工智能未来的工作方式。