一份新的奥林匹克级数学基准,揭示了顶级大型语言模型 (LLM) 的真实推理极限。
为什么需要新的基准?因为现有的数学基准(如 AIME24/25)正面临严重的“性能饱和”问题 [cite: 12, 76]。
[cite_start]近期的研究结果显示,顶尖的 LLM 在这些测试上已经能够取得惊人的成绩,部分甚至超过了 90% 的准确率 [cite: 75][cite_start]。这种高分使得这些基准逐渐失去了区分和评估模型进一步发展的能力 [cite: 12, 76]。
为了解决这一问题,研究人员推出了 AMO-Bench,一个包含50个人工精心制作问题的高级数学推理基准 [cite: 10]。
其核心特征确保了评估的严格性:
在 AMO-Bench 的严格考验下,当代 LLM 的“光环”迅速褪去。
[cite_start]实验结果显示,即便是表现最好的模型 GPT-5-Thinking (High),其准确率也仅为 52.4% [cite: 15, 92, 320]。[cite_start]
更重要的是,绝大多数 LLM 在此基准上的得分都低于 40% [cite: 15, 92, 320]。
[cite_start]这些并不理想的成绩清晰地表明,尽管 LLM 在许多任务上取得了长足进步,但其在复杂数学推理方面的能力仍有巨大且显著的提升空间 [cite: 17, 321]。
AMO-Bench 的构建采用了一个全面的多阶段流程 [cite: 140],以保证其极高的标准: