信息发布

NEWS AND EVENTS

平台动态/最新公告 学术动态 业界动态/赛事

庙算·大模型策略推理基准WGSR-Bench正式发布

    近年来,大语言模型的突破性进展为人工智能在推理任务中的表现带来了质的飞跃,特别是在数学、符号和常识推理等领域表现出显著能力。然而,作为人类高级认知的重要组成,策略推理能力—即在动态环境中评估多方行为、制定并调整行动计划的能力,仍未得到系统评估与建模。    为此,中国科学院自动化研究所复杂系统认知与决策国家级重点实验室、智能系统与工程研究中心提出并发布庙算基准(Wargame-based Game-theoretic Strategic Reasoning Benchmark, WGSR-Bench),首个以兵棋推演为载体的大模型策略推理基准。团队从博弈决策出发创新性地提出了策略推理S-POE的结构化认知框架,构建了基于S-POE的大模型策略推理评估基准WGSR-Bench。该基准包括4层结构、九类对象、39种行为、1208个问答对。6月7日,全球人工智能技术大会期间, 智能系统与工程研究中心主任黄凯奇研究员受邀发表主题演讲,介绍庙算基准WGSR-Bench及其如何推动大模型驱动的策略智能研究。图1 庙算基准WGSR-Bench架构一、迫切需求:博弈策略推理全面性与系统性评估不足    博弈决策是复杂系统决策理论和人工智能的核心组成部分,其本质在于解决多方参与者在利益交织、规则约束下的策略选择问题。策略推理作为博弈决策的"认知引擎",是实现博弈感知与复杂决策能力的基石。为此,系统评估当前大模型的策略推理能力成为一项紧迫的工作。当前的评估基准数据集与环境主要存在两个关键局限性。首先,现有的评估环境或数据仅关注端到端的能力验证,无法准确刻画态势理解、博弈策略生成等策略推理关键组成部分的水平。其次,当前的评估基准环境过于简单,主要集中在经典博弈场景,在场景覆盖范围、策略推理复杂性上存在不足。这些局限性极大阻碍了策略推理能力的全面评估。    庙算基准WGSR-Bench围绕环境态势、对手风险、博弈策略生成等核心任务设计测试样本,构建了一个可量化、可拓展的评估框架S-POE。该评测基于庙算·人机对抗平台产生的兵棋推演数据构建。兵棋作为典型的高复杂度策略博弈,融合了环境的不确定性、对抗方的动态性以及策略选择的非唯一性,能够有效检验模型在多主体决策、意图建构和反事实推演等方面的推理能力。二、创新设计:庙算基准WGSR-Bench    庙算基准WGSR-Bench以兵棋推演数据为基础,S-POE结构化认知为框架,自动生成测试样本,评估大模型策略推理能力,进而牵引以博弈大模型智能体为主要内容的策略智能研究,其创新设计如下:评测数据采样范围宽广    庙算·人机对抗平台与庙算生态积累了当前国内规模最大的兵棋推演数据库。该数据库拥有超过40万场对抗复盘(包括文本数据量约2TB,图像视频数据量超过1PB),由超过5千家单位的数万人和千余智能体混合对抗产生,覆盖6大类环境,30小类环境的225个对抗场景,对抗规模涵盖3vs3到30vs30的实体间协作与对抗(单方实体数量可以到百级规模),对抗时长从几百步到近三千步。图2. 庙算·平台数据概述全面评测大模型与人类策略推理能力    评测大模型覆盖闭源顶级商用模型如GPT-4与Claude,开源主流模型如Deepseek R1,LLaMA近15种。此外,兼顾覆盖国内外主要机构大模型,尺寸范围从2B到671B,并构建了基于AnythingLLM、VLLM等框架的统一评测平台,保证评测公平性。评测人类选手选取专业类院校约150名人员(涵盖普通级、优秀级、精英级不同等级),以有组织线下答题方式进行QA收集。基于大模型与人类QA效果,进行全面对比。图3. 评测大模型与人类测试者评测基准覆盖策略推理关键能力    以S-POE结构化认知框架为基准,构建环境态势、对手风险、博弈策略生成为核心任务的策略推理子集MM-SA-Bench、PsyR-OM-Bench以及PGG-Bench。MM-SA-Bench围绕对象识别、空间关系识别、态势推理分析展开,包含三层环境态势要素、七类环境态势典型关系、424个态势理解问答,系统评估大模型态势理解能力。PsyR-OM-Bench以对手风险回报为切入点,构建“心理特质-决策类型-行为表现”三层结构,包含四类风险/回报型心理特质、五类博弈策略、十项关键行为、420道对手风险/回报问答,系统评估大模型的对手建模能力。PGG-Bench以组合博弈论为基础,围绕非合作博弈、不完全信息博弈、序贯博弈以及合作博弈4类典型博弈任务展开,围绕28项决策类型、364道策略问答,系统评估大模型的策略生成能力。图4. MM-SA-Bench构成与实例图5. PsyR-OM-Bench构成与实例图6. PGG-Bench构成与实例三、人机测评:庙算基准(WGSR-Bench)    通过庙算基准评估,在对手风险预判和策略生成方面人机能力分层明显,大模型仍落后但取得关键突破,具体如下:1大模型在对手风险建模中存在关键短板演绎推理能力不足    大模型(如R1)在归纳推理(如风险识别,得分55.8)上表现尚可,但在需要逻辑推演的演绎推理(如策略推断,得分42.2)上显著落后于人类(人类得分88.5 vs 85.4)。表明模型擅长模式匹配,但难以进行因果推理或动态策略推演。对模糊语义的适应能力差    在语言明确的回报类任务(得分59.7)上表现稳定,但在语义模糊的风险类任务(得分39.5)上表现骤降。人类在两类任务中表现均衡(88.7 vs 85.2),而模型对不确定性表述(如“较高风险”)的泛化能力较弱。时间尺度敏感性差异大    长期回报判断(得分84.0,接近人类的83.3)表现良好,但短期回报判断(得分45.2,远低于人类的87.8)表现极差。短期决策涉及策略组合爆炸(多路径、多解空间),而模型缺乏人类式的动态权衡能力。图7. PsyR-OM-Bench综合测试结果图8. PsyR-OM-Bench各任务测试结果2大模型与人类在策略生成能力中分层明显人机能力分层明显AI仍落后但具备竞争力    精英级人类(92.3分)和专业级人类(80.7分)仍大幅领先AI,显示AI在复杂策略推理上的根本性不足(最佳AI GPT-4.1仅60.0分,差距20.7分)。但AI超越普通级人类(45.0分),表明其在基础策略思维上已具备竞争力。模型架构与训练策略决定性能差距    LLM间分化严重:GPT-4.1(60.0分)领先Gemini 2.5 Pro(30分差距),表明架构优化和专业化训练对长策略推理能力至关重要。需进一步优化模型架构(如强化推理模块)并结合领域专业化训练,以缩小与顶尖人类的差距。复杂博弈仍是短板但改进潜力显著    长策略任务(如联盟评估):最佳LLM(61.2分)仍远落后于精英人类(94.2分,差距33分),反映AI在多步推理、动态博弈上的不足。 AI在各细分维度已超越普通人类水平,未来通过 “专业训练+架构优化”双轮驱动,有望实现全面突破。图9 PGG-Bench综合测试结果图10. PGG-Bench各任务测试结果四、未来计划:策略思维试金石    庙算基准(WGSR-Bench)的发布,是策略智能研究的一次集结号,而非终点线。未来,研发团队将持续拓展任务场景深度与对抗类型广度,构建涵盖多轮博弈、多主体协同与人机混合决策的系统化评测体系。最终目标,是将WGSR-Bench打造为支撑大模型AI在国防战略、经济博弈、智能外交等关键领域落地应用的“策略思维试金石”,不断推动大模型向具备真实博弈推理与协同决策能力的“人工参谋”演进。论文链接:arXiv submitted, comming soon.项目主页:https://xiangquantang.github.io/test_6.10/lanhu_homemmsabench/index.html致谢 感谢火箭军工程大学兵棋推演俱乐部、信息工程大学密码工程学院兵棋推演俱乐部的大力支持!

面向德州扑克:中科院自动化所智能系统中心团队建立大规模不完美信息博弈研究基准【arXiv 2020】

  近日,中科院自动化所智能系统与工程研究中心团队发表论文OpenHoldem: An open toolkit for large-scale imperfect-Information game research。针对大规模不完美信息博弈研究领域缺少开放性评测环境及基准的问题,论文从三个方面给出了系统性的解决方案。首先,论文提出了一套标准化的评估方法可以多角度评测AI的性能;其次,论文提供了一系列高水平德州扑克基准AI供研究者在线测试及改进;最后,论文公开了一个用户友好的在线比赛平台以方便研究者进行AI大规模测试。OpenHoldem致力于推动大规模不完美信息博弈领域理论与技术的突破,同时促进该领域重要科学问题的研究,比如不确定性对手建模、大规模博弈均衡求解以及人机交互学习等。  相关论文地址:http://arxiv.org/abs/2012.06168   作为大规模不完美信息博弈研究的一个重要实验环境,德州扑克一直受到学术界的广泛关注。近年来,国外德州扑克AI的研发取得了一系列突破,产生了一系列可以战胜人类专业选手的德州扑克AI。然而,由于相关研究细节未完全公开、AI测试基准也不统一,德州扑克AI的研发对于感兴趣的研究者来说仍然充满挑战,这样的现状严重阻碍了该领域的进一步发展。基于此,自动化所智能系统与工程研究中心团队在论文中提出了OpenHoldem:一个以德州扑克为具体研究对象的大规模不完美信息博弈开放研究平台。  在评估方法方面,论文提出了多种强随机博弈AI性能评测算法,可以全方位多角度地对AI性能进行准确客观的评估。最直接的AI性能评测方式是基于AI之间的对抗结果进行评估,但由于德州扑克博弈随机性大,结果只有在大量的对抗下才具有统计意义。为此,论文采用重复扑克、方差缩减等评测算法来大幅降低评测所需的对抗局数;另外,只基于AI之间的对抗并不能衡量AI的最差性能,论文采用了局部最优响应算法来近似计算AI的利用度,以此来衡量AI面对最具针对性对手时的性能。  在基准AI方面,论文提供了知识驱动型、数据驱动型、离线学习型、在线适应型等多种不同种类的高水平两人/多人德州扑克AI。知识驱动型AI是根据德州扑克专业玩家的经验总结得到的,它可以处理德州扑克博弈中遇到的常见情况,研究者可以与知识驱动型AI进行对比来初步验证AI实现的正确性;论文同时提供了一个DeepStack AI(M. Moravčík, Science, 2017)的复现版本,复现过程中使用了12台8 GPU卡的高性能服务器并行生成了千万量级的训练数据,该AI可以战胜ACPC竞赛冠军Slumbot AI(见下图)。  在测试平台方面,论文提供了一个公开的测试平台(可通过http://holdem.ia.ac.cn/进行访问)来方便研究者进行AI测试。平台内置了所有的基准AI和评测算法;支持人人、机机、人机等多种对抗模式;支持多终端并发访问;支持AI分布式并行测试。同时,平台还提供了面向AI研发的工具包,包括AI编程接口、AI开发文档以及博弈复盘服务;平台可接收团队/个人的自研AI,并可将高水平AI纳入作为新的基准,平台的最终目标是构建德州扑克大规模不完美信息博弈领域的标准模型库。  通过论文开放的大规模不完美信息博弈研究平台OpenHoldem,自动化所智能系统与工程研究中心团队希望在国内营造和催生智能博弈相关基础研究的生态环境,带动和激发更大范围和规模的智能博弈基础研究力量进行核心技术攻坚。  走向通用人工智能前路漫漫,让我们共同努力,共同推动智能博弈技术的变革与突破!

会聊天的智能体能更好地与人类合作【Nature Communications 2018】

近日,一家国际团队开发了一种人工智能算法,它在社交技能方面超过了人类,能与人或机器合作,玩各种各样的双人游戏。该算法被称为S#(“sharp”),麻省理工学院媒体艺术与科学副教授Iyad Rahwan博士领导的研究人员对其进行了测试。在机器与机器、人类与机器和人类与人类三种类型的交互中,大多数情况下,使用S#编程的机器在寻找对双方都有利的折衷方案时,要优于人类。研究报告的主要作者、计算机科学教授Jacob Crandall说:“如果两个人坦诚相待,彼此忠诚,那么他们就能和机器做得一样好了。”然而,事实上,接近一半的测试者都撒了谎。因此,从本质上讲,该算法的道德感更强(因为它被编程为不说谎),而且它一旦参与合作,也更容易保持下去。Crandall说:“我们的最终目标是,理解人与人合作背后的数学原理,以及找到人工智能发展社交技能需要具备的属性。”“人工智能要对我们做出回应,并清楚地表达自己在做什么。”它必须能够与他人进行互动。如何通过与AI聊天帮助人类增强合作一个重要发现是:使用口语化的短语(在研究中称为“廉价谈话”)可以增强合作。在测试中,如果人类参与者与机器合作,机器可能会给出“甜蜜”的回应,比如,“我们发财了!”或“我很开心接受你最后的提议”。如果参与者想要背叛机器,或退出之前达成的协议,机器可能就会说“诅咒你!”“你会为此付出代价的!”甚至“真不要脸!”之类的话。而当机器使用廉价谈话时,人类往往无法分辨对方是人还是机器,这有点像小型的“图灵测试”。Crandall希望,研究结果可以对人际关系产生长远影响。他说:“社会中的人际关系一直很紧张。多年好友也可能一夜之间反目成仇。这台机器比人更容易找到双方都能接受的折衷方案,所以它可能教会我们如何更好地处理人际关系。”该研究的详细内容已发布于《自然通讯》。论文《与机器合作》(Cooperating with machines)摘要自从艾伦·图灵提出人工智能以来,人工智能技术是否取得进步的衡量标准,通常是以机器能否在博弈类游戏(例如,国际象棋,德州扑克或围棋)中击败人类来衡量的。大家对人机合作能给人类带来多少益处的关注比较少。合作不需要纯粹的计算能力,而是通过直觉、文化规范、情感、信号和预先进化的倾向来促成的。我们开发了一种算法,结合了最先进的强化学习算法与信号机制。结果表明,该算法能在不同的两人重复随机博弈中,与人类和其他相当于人类合作水平的算法相配合。这些结果表明,使用一组能取得非凡效果但方式简单的算法机制,可以实现一般的人机合作。
推荐阅读
问题反馈
请将您的宝贵意见反馈给我们