庙算·大模型策略推理基准WGSR-Bench正式发布
发布时间:
2025-06-12
浏览次数:
11
近年来,大语言模型的突破性进展为人工智能在推理任务中的表现带来了质的飞跃,特别是在数学、符号和常识推理等领域表现出显著能力。然而,作为人类高级认知的重要组成,策略推理能力—即在动态环境中评估多方行为、制定并调整行动计划的能力,仍未得到系统评估与建模。
为此,中国科学院自动化研究所复杂系统认知与决策国家级重点实验室、智能系统与工程研究中心提出并发布庙算基准(Wargame-based Game-theoretic Strategic Reasoning Benchmark, WGSR-Bench),首个以兵棋推演为载体的大模型策略推理基准。团队从博弈决策出发创新性地提出了策略推理S-POE的结构化认知框架,构建了基于S-POE的大模型策略推理评估基准WGSR-Bench。该基准包括4层结构、九类对象、39种行为、1208个问答对。6月7日,全球人工智能技术大会期间, 智能系统与工程研究中心主任黄凯奇研究员受邀发表主题演讲,介绍庙算基准WGSR-Bench及其如何推动大模型驱动的策略智能研究。
博弈决策是复杂系统决策理论和人工智能的核心组成部分,其本质在于解决多方参与者在利益交织、规则约束下的策略选择问题。策略推理作为博弈决策的'认知引擎',是实现博弈感知与复杂决策能力的基石。为此,系统评估当前大模型的策略推理能力成为一项紧迫的工作。当前的评估基准数据集与环境主要存在两个关键局限性。首先,现有的评估环境或数据仅关注端到端的能力验证,无法准确刻画态势理解、博弈策略生成等策略推理关键组成部分的水平。其次,当前的评估基准环境过于简单,主要集中在经典博弈场景,在场景覆盖范围、策略推理复杂性上存在不足。这些局限性极大阻碍了策略推理能力的全面评估。
庙算基准WGSR-Bench围绕环境态势、对手风险、博弈策略生成等核心任务设计测试样本,构建了一个可量化、可拓展的评估框架S-POE。该评测基于庙算·人机对抗平台产生的兵棋推演数据构建。兵棋作为典型的高复杂度策略博弈,融合了环境的不确定性、对抗方的动态性以及策略选择的非唯一性,能够有效检验模型在多主体决策、意图建构和反事实推演等方面的推理能力。
庙算基准WGSR-Bench以兵棋推演数据为基础,S-POE结构化认知为框架,自动生成测试样本,评估大模型策略推理能力,进而牵引以博弈大模型智能体为主要内容的策略智能研究,其创新设计如下:
庙算·人机对抗平台与庙算生态积累了当前国内规模最大的兵棋推演数据库。该数据库拥有超过40万场对抗复盘(包括文本数据量约2TB,图像视频数据量超过1PB),由超过5千家单位的数万人和千余智能体混合对抗产生,覆盖6大类环境,30小类环境的225个对抗场景,对抗规模涵盖3vs3到30vs30的实体间协作与对抗(单方实体数量可以到百级规模),对抗时长从几百步到近三千步。
评测大模型覆盖闭源顶级商用模型如GPT-4与Claude,开源主流模型如Deepseek R1,LLaMA近15种。此外,兼顾覆盖国内外主要机构大模型,尺寸范围从2B到671B,并构建了基于AnythingLLM、VLLM等框架的统一评测平台,保证评测公平性。评测人类选手选取专业类院校约150名人员(涵盖普通级、优秀级、精英级不同等级),以有组织线下答题方式进行QA收集。基于大模型与人类QA效果,进行全面对比。
以S-POE结构化认知框架为基准,构建环境态势、对手风险、博弈策略生成为核心任务的策略推理子集MM-SA-Bench、PsyR-OM-Bench以及PGG-Bench。MM-SA-Bench围绕对象识别、空间关系识别、态势推理分析展开,包含三层环境态势要素、七类环境态势典型关系、424个态势理解问答,系统评估大模型态势理解能力。PsyR-OM-Bench以对手风险回报为切入点,构建“心理特质-决策类型-行为表现”三层结构,包含四类风险/回报型心理特质、五类博弈策略、十项关键行为、420道对手风险/回报问答,系统评估大模型的对手建模能力。PGG-Bench以组合博弈论为基础,围绕非合作博弈、不完全信息博弈、序贯博弈以及合作博弈4类典型博弈任务展开,围绕28项决策类型、364道策略问答,系统评估大模型的策略生成能力。
通过庙算基准评估,在对手风险预判和策略生成方面人机能力分层明显,大模型仍落后但取得关键突破,具体如下:
大模型(如R1)在归纳推理(如风险识别,得分55.8)上表现尚可,但在需要逻辑推演的演绎推理(如策略推断,得分42.2)上显著落后于人类(人类得分88.5 vs 85.4)。表明模型擅长模式匹配,但难以进行因果推理或动态策略推演。
在语言明确的回报类任务(得分59.7)上表现稳定,但在语义模糊的风险类任务(得分39.5)上表现骤降。人类在两类任务中表现均衡(88.7 vs 85.2),而模型对不确定性表述(如“较高风险”)的泛化能力较弱。
长期回报判断(得分84.0,接近人类的83.3)表现良好,但短期回报判断(得分45.2,远低于人类的87.8)表现极差。短期决策涉及策略组合爆炸(多路径、多解空间),而模型缺乏人类式的动态权衡能力。
精英级人类(92.3分)和专业级人类(80.7分)仍大幅领先AI,显示AI在复杂策略推理上的根本性不足(最佳AI GPT-4.1仅60.0分,差距20.7分)。但AI超越普通级人类(45.0分),表明其在基础策略思维上已具备竞争力。
LLM间分化严重:GPT-4.1(60.0分)领先Gemini 2.5 Pro(30分差距),表明架构优化和专业化训练对长策略推理能力至关重要。需进一步优化模型架构(如强化推理模块)并结合领域专业化训练,以缩小与顶尖人类的差距。
长策略任务(如联盟评估):最佳LLM(61.2分)仍远落后于精英人类(94.2分,差距33分),反映AI在多步推理、动态博弈上的不足。 AI在各细分维度已超越普通人类水平,未来通过 “专业训练+架构优化”双轮驱动,有望实现全面突破。
感谢火箭军工程大学兵棋推演俱乐部、信息工程大学密码工程学院兵棋推演俱乐部的大力支持!