谷歌DeepMind AlphaProof Nexus一次性解决9道埃尔德什开放问题

近日，谷歌DeepMind团队发布了全新AI数学智能体AlphaProof Nexus，一举解决了9道悬而未决的埃尔德什开放问题（Erdős problems），其中最古老的问题已搁置56年。所有证明均通过Lean编译器进行了形式化验证，确保数学上的严谨性。该成果标志着AI在开放式数学研究领域迈出了实质性一步。

除了9道埃尔德什问题，该系统还证明了OEIS整数序列百科中的44个开放猜想，解决了一道搁置15年的代数几何难题（希尔伯特函数的对数凹性），并改进了凸优化领域中锚定梯度下降法的一个理论边界。整套证明代码已开源在GitHub上。研究共有20位作者，论文以arXiv预印本形式公开。

三道典型难题的破解路径

无限整数集的三元整除约束

第一道题要求构造一个无限大的整数集合，满足：任意取三个不同的数a、b、c，a永远不能整除b加c的和；同时该集合在自然数中保持一定密度（下密度非零）。该问题自1970年提出以来，人类仅能给出局部构造，始终无法获得完整的无限集。AI的解法则利用中国剩余定理将大问题拆解为多个独立区块，每个区块内部通过三项等差数列的回避集来满足约束，最后将各区块拼接成完整的无限集。

数字集合加法的密度判断

第二个问题涉及两个集合：集合A由“三进制下只由数字0和1组成的整数”构成，集合B由“四进制下只由0和1组成的整数”构成。将两个集合中的数字两两相加，得到新集合，问题是该新集合在自然数中的下密度是否为正。该问题自1996年提出后悬而未知。AI利用log₄除以log₃是无理数的性质，说明3的幂次和4的幂次可以任意精度彼此逼近，进而构造归纳性稀疏化论证，使密度以0.99的比率逐步衰减直到归零，最终证明下密度确实为零。

平面点集的全局不可拆分性

第三道是平面几何题：证明存在一个无限扩展的平面点集，使得任意有限子集都包含大量不共线的点（即任意有限子集的大部分点不共线），但整个集合无法被拆分成有限个“绝对无三点共线”的子集。AI将完全图的每条边映射到平面上的一个点，用二次多项式编码坐标，并引入无穷Ramsey定理，把一个几何问题转化为图论和逻辑语言，完成了证明。

架构核心：形式化验证与多Agent协同

AlphaProof Nexus的架构核心是“编写证明代码 + 编译器验证”的反馈循环。系统内置三种不同类型的智能体（Agent），分别探索不同的解题策略：

Agent A：最基础的方案。仅依靠大语言模型Gemini 3.1 Pro梳理解题思路，编写证明代码（Lean语言），然后交给编译器核验。一旦编译器报错，错误信息会传回模型，模型修改代码并重试，直到验证通过。全部过程无需额外工具，仅靠LLM+编译器循环。

Agent B：在Agent A的基础上，当遇到某个小步骤反复卡住时，可调用AlphaProof（DeepMind此前专为奥数级别题目训练的强化学习证明工具）进行树搜索，攻击局部难点。

Agent C：多个子Agent共享一个证明草图“种群”。每个子模块产出不同的证明草稿，由另一个模型从合理性、清晰度、新颖性三个维度打分（Elo评分系统）。高分草稿相互组合衍生新解法，低分草稿被淘汰，整个种群在证明空间中进行进化搜索。

出人意料的是，在本次大规模评估中，表现最佳的并非结构最复杂的Agent C，而是最简单的Agent A——仅靠LLM循环加编译器反馈，就完成了所有9道题的证明。Agent B和Agent C在部分难题上虽有一定帮助，但整体效率并不优于A。这一结果暗示，随着大模型能力持续提升，复杂的多工具组合系统可能不再是解决数学难题的必需条件。单题成本仅需几百美元（约合人民币数千元）。

成本与验证的突破

菲尔兹奖得主陶哲轩此前曾指出，AI目前解决埃尔德什问题的实际成功率大约在1-2%。本次系统在353道题的测试集中解开了9道，比例恰好落在该估算范围内。所有证明代码均经过Lean编译器的形式化验证，不存在大模型常见的“幻觉”问题，人工程序员也确认了解法的正确性。

埃尔德什生前曾为这些难题设置了悬赏，鼓励后来者破解。如今，解开这些谜题的不仅有人类智慧，还有经过大规模算力训练的AI。值得注意的是，DeepMind已将全部证明代码开源，供全球数学研究社区检验与复用。

论文地址：https://arxiv.org/abs/2605.22763v1
Github地址：https://github.com/google-deepmind/alphaproof-nexus-results

本文参考来源：量子位

微信扫描下方的二维码阅读本文

谷歌DeepMind AlphaProof Nexus一次性解决9道埃尔德什开放问题