饱和的终结:AMO-Bench

一份新的奥林匹克级数学基准,揭示了顶级大型语言模型 (LLM) 的真实推理极限。

“饱和” 的问题

[cite_start]

为什么需要新的基准?因为现有的数学基准(如 AIME24/25)正面临严重的“性能饱和”问题 [cite: 12, 76]。

[cite_start]

近期的研究结果显示,顶尖的 LLM 在这些测试上已经能够取得惊人的成绩,部分甚至超过了 90% 的准确率 [cite: 75][cite_start]。这种高分使得这些基准逐渐失去了区分和评估模型进一步发展的能力 [cite: 12, 76]。

AMO-Bench:高级数学推理

[cite_start]

为了解决这一问题,研究人员推出了 AMO-Bench,一个包含50个人工精心制作问题的高级数学推理基准 [cite: 10]。

其核心特征确保了评估的严格性:

    [cite_start]
  • 极高难度: 所有问题均经过专家交叉验证,确保其难度达到或超过国际数学奥林匹克 (IMO) 的标准 [cite: 13, 85]。
  • [cite_start]
  • 完全原创: 全部50个问题均为全新创建 [cite: 83][cite_start],以防止模型通过“数据记忆”已有竞赛题库而获得虚高分数 [cite: 13]。
  • [cite_start]
  • 自动评分: 每个问题都设计为只需要一个最终答案(而非完整的证明过程) [cite: 14][cite_start],这使得大规模的自动评分成为可能,保证了评估的高效和一致性 [cite: 87]。

核心发现:LLM仍在挣扎

在 AMO-Bench 的严格考验下,当代 LLM 的“光环”迅速褪去。

[cite_start]实验结果显示,即便是表现最好的模型 GPT-5-Thinking (High),其准确率也仅为 52.4% [cite: 15, 92, 320]。
[cite_start]

更重要的是,绝大多数 LLM 在此基准上的得分都低于 40% [cite: 15, 92, 320]。

[cite_start]

这些并不理想的成绩清晰地表明,尽管 LLM 在许多任务上取得了长足进步,但其在复杂数学推理方面的能力仍有巨大且显著的提升空间 [cite: 17, 321]。

性能对比

AMO-Bench vs. MATH500 (数据源: 图1)

MATH500 (已饱和)
GPT-5-Thinking (High)
[cite_start]
99.6% [cite: 54]
LongCat-Flash-Thinking
[cite_start]
99.2% [cite: 53]
Gemini-2.5-Pro
[cite_start]
98.8% [cite: 55]
AMO-Bench (新挑战)
GPT-5-Thinking (High)
[cite_start]
52.4% [cite: 42]
LongCat-Flash-Thinking
[cite_start]
43.6% [cite: 45]
Gemini-2.5-Pro
[cite_start]
38.7% [cite: 44, 48, 49]

基准的构建流程

确保质量、原创性与难度

[cite_start]

AMO-Bench 的构建采用了一个全面的多阶段流程 [cite: 140],以保证其极高的标准:

人类专家
(Data Creation)
[cite_start]
质量审查 [cite: 145]
(Quality Review)
[cite_start]
独创性审查 [cite: 149]
(Originality Review)
[cite_start]
难度审查 [cite: 154]
(Difficulty Review)