2025
-
06
-
12
近年来,大语言模型的突破性进展为人工智能在推理任务中的表现带来了质的飞跃,特别是在数学、符号和常识推理等领域表现出显著能力。然而,作为人类高级认知的重要组成,策略推理能力—即在动态环境中评估多方行为、制定并调整行动计划的能力,仍未得到系统评估与建模。 为此,中国科学院自动化研究所复杂系统认知与决策国家级重点实验室、智能系统与工程研究中心提出并发布庙算基准(Wargame-based Game-theoretic Strategic Reasoning Benchmark, WGSR-Bench),首个以兵棋推演为载体的大模型策略推理基准。团队从博弈决策出发创新性地提出了策略推理S-POE的结构化认知框架,构建了基于S-POE的大模型策略推理评估基准WGSR-Bench。该基准包括4层结构、九类对象、39种行为、1208个问答对。6月7日,全球人工智能技术大会期间, 智能系统与工程研究中心主任黄凯奇研究员受邀发表主题演讲,介绍庙算基准WGSR-Bench及其如何推动大模型驱动的策略智能研究。图1 庙算基准WGSR-Bench架构一、迫切需求:博弈策略推理全面性与系统性评估不足 博弈决策是复杂系统决策理论和人工智能的核心组成部分,其本质在于解决多方参与者在利益交织、规则约束下的策略选择问题。策略推理作为博弈决策的'认知引擎',是实现博弈感知与复杂决策能力的基石。为此,系统评估当前大模型的策略推理能力成为一项紧迫的工作。当前的评估基准数据集与环境主要存在两个关键局限性。首先,现有的评估环境或数据仅关注端到端的能力验证,无法准确刻画态势理解、博弈策略生成等策略推理关键组成部分的水平。其次,当前的评估基准环境过于简单,主要集中在经典博弈场景,在场景覆盖范围、策略推理复杂性上存在...