九道未解题被一次性攻下
5 月 25 日,谷歌 DeepMind 在 X 上低调放出一份内部报告摘要:他们的最新数学推理系统在过去三周内独立解决了九道公开标记为未解的数学难题。Polymarket 上”AI 在 2026 年解决菲尔兹级别问题”的合约价格当天从 0.18 跳到 0.34,涨幅接近翻倍。

九道清单 DeepMind 没有完整公开,但从研究组博客里能看到三道:一道是 Erdős–Szekeres 定理的某个推广形式、一道是组合数学里关于 Latin square 上特定结构存在性的猜想、一道出自 graph minor 理论的三十年悬而未决的命题。这三道都属于公认困难、不在主流热点上的题目——不是费马大定理那种众所周知的大问题,而是各分领域专家私下记着、偶尔有人尝试的中等大问题。
研究 agent 的工作流和外推证据
系统流程值得讲一下。和 AlphaProof 那种端到端给出形式化证明的路线不同,这次是一个研究 agent——先用大语言模型阅读相关论文摘要、挑选攻击方向,再用 Lean 4 尝试每一条路径。某条路径走死了,模型回到自然语言层面重新规划。整个过程被拆成数千个独立小步骤、由调度器并行驱动。九道题里有若干道是 agent 在被告知问题后 48 到 72 小时内独立完成的,没有人类数学家介入。
DeepMind CEO Demis Hassabis 在公司博客里点了一句关键:”我们没有为这九道题做任何专项微调,模型见过的训练数据上限只到研究生层面的标准教材和公开论文。”负责推理系统的 Pushmeet Kohli(DeepMind 科研副总裁)补充:”九道题里有六道在我们启动评测之前 24 小时还在被人类数学家私下交换攻略——agent 不是在背答案。”
份量为什么比 IMO 满分大
四月份 GPT-5.5 解过几道 IMO 历年题型,分布相对接近训练数据;这次 DeepMind 报的是冷门组合学问题,分布距离训练数据远得多。如果模型能解决训练分布外的问题,说明推理能力本身在外推,而不只是题型记忆。这是和上一次本质不同的地方。
对数学家社区,影响是分裂的。Fields 奖得主 Timothy Gowers 在博客里写:”我对 AI 的进展一向保持开放态度,但这九道题的复核必须严格——形式化证明可机器验证,但形式化定义是不是真的刻画了原问题,仍然要数学家逐个确认。”普林斯顿研究生群体在 X 上则担忧:如果 AI 把挑战难题这件事的供给侧打开,研究生培养的入口端会被改写。真正值得追踪的指标不是”AI 解了几道题”,而是”AI 解决的问题里,有多少在五年内会被人类研究者独立复现”——这个差值是衡量 AI 数学能力是否可靠的硬尺。