从伽罗瓦到夸克：需要200年验证的想法，AI能产生吗？

本文经原作者授权转载，版权归原作者所有。原作者：向阳乔木（@vista8）。

https://www.youtube.com/watch?v=TfyPshgMbug

一个 19 岁的少年，在监狱里写下了一套没人看懂的数学笔记。

他把笔记托付给朋友，请他转交给当时最伟大的数学家高斯，朋友尽力了，但没有成功。

这个少年在一场决斗中死去，年仅 20 岁。

又过了二十年，一位叫刘维尔的数学家翻出这些笔记，觉得里面可能有点东西。

又过了二十年，有人把这些想法整理成现代数学能读懂的形式。

再过一百年，物理学家盖尔曼用这套理论预测了夸克的存在。

这个少年叫伽罗瓦。他留下的东西，叫群论。

从一个模糊的直觉，到改变物理学，中间隔了将近两百年。

在这两百年里，这个想法被拒稿，被遗忘，被误解，在多个人的脑子里辗转流传，才慢慢结晶成一座数学的山峰。

现在，有人想用 AI 来做同样的事。

问题是：你怎么训练一个系统，去产生一个需要两百年才能被验证的想法？

这是 Grant Sanderson 和 Dwarkesh Patel 在 2026 年初的一场对话里反复触碰的困境。

Grant 是 3Blue1Brown 的创始人，YouTube 上最受欢迎的数学频道，几百万订阅者。

但他的身份很奇特：他不做研究数学，他解释数学。

他的整个职业，就是在回答"理解和证明有什么区别"这个问题，这让他在 AI 和数学的讨论里，站在一个很特殊的位置。

Dwarkesh 是一个播客主，专门采访 AI 领域最顶尖的研究者和创始人，他的优势是局外人的视角，他的问题往往比答案更有趣。

他们聊了两个多小时，以下是这场对话的精华提炼。

IMO 金牌：一个没有改变任何事情的里程碑

三年前，Dwarkesh 问过 Grant 一个问题：当 AI 能在国际数学奥林匹克（IMO）拿金牌的时候，那是不是就等于 AGI 了？

IMO 的题目需要真正的创造力，连专门训练过的顶尖学生都未必能全解。

如果 AI 能做到，它不就什么都能做了吗？

Grant 当时的回答是：不会的。那只是又一个被超越的基准，不会有顿悟时刻。

他是对的。

2024 年，AI 在 IMO 上的表现已经达到金牌水准，世界没有因此改变，没有人突然觉得 AGI 到来了，没有经济结构发生剧变，数学家们继续做他们的研究。

IMO 的题目分四类：几何、数论、代数、组合数学。

AI 在几何上的表现是 19 秒解完，因为有暴力求解器可以直接上，而且几何题有相对固定的训练路径可以覆盖大部分题型。

但组合数学不一样。那些题目更像是谜题，需要一种"玩感"，需要从意想不到的角度切入。

2024 年的 IMO 恰好有两道组合数学题，AI 在这里卡住了。

如果那年的题目多一道几何、少一道组合，AI 就能拿金牌。

AI 的能力边界不是一条平滑的曲线，而是锯齿状的。

即便在数学这一个领域内部，不同方向的进展也差异巨大，把 AI 能力想象成一个整体，是一种系统性的误判。

而且，IMO 的"脏秘密"是，它的很多题目其实是可以训练的。

题目设计者会努力出那些不容易被刷题覆盖的题，但终究有限。

组合数学之所以是最后的堡垒，不是因为它最难，而是因为它最难被系统化地训练。

这个逻辑，在接下来的整个讨论里会反复出现。

一道闪电，和一座山峰

Grant 提出了一个框架，是整场对话最有价值的部分。

他把 AI 在数学上可能取得的进展分成两种截然不同的类型。

第一种，叫连接闪电。

2025 到 2026 年间，AI 解决了几个引人注目的数学问题。

其中一个是 Erdős 第 1196 号问题，关于"原始集合"的猜想。

AI 的解法，是把另一个领域的工具引入进来，在两个看似无关的数学领域之间打了一道闪电（知识连接）。

这类进展有一个特点：对人类来说是可理解的。

你只需要看到闪电的起点和终点，剩下的推导对领域内的人来说是自然的，你把这个想法说给一个懂行的数学家听，他会立刻知道怎么展开。

另一个例子是单位距离猜想的反例。

AI 公开了推理链，数学家们读了之后，觉得是可以理解的，而且这个反例实际上加速了人类对这个问题的理解。

AI 为什么擅长这种连接？

因为它同时精通量子物理、解析数论、随机矩阵理论……它能看到那种跨领域的相似性，而不需要靠两个人在午饭时偶然聊起来。

这里有一个具体的故事。

数学家 Hugh Montgomery 在研究黎曼 zeta 函数的零点分布时，写下了一个公式。

物理学家 Freeman Dyson 看到这个公式，说：我认识这个表达式，它出现在研究随机厄米矩阵的特征值分布时，那是核能级的量子力学问题。

两个看似毫不相关的领域，零点统计和随机矩阵理论，居然有相同的数学结构。

这个发现开启了一整个研究方向。

而这个发现，是靠两个人在普林斯顿高等研究院吃午饭时偶然聊起来的。

第二种，叫建造山峰。

Fermat 大定理的证明是这种。

你需要先建起椭圆曲线这座山，再建起模形式这座山，然后才能在山顶之间架桥。

这两座山本身就是全新的数学体系，需要几代人的积累才能建成。

群论也是这种。

伽罗瓦没有解决一个已知的问题，他创造了一套新的思考框架。

AI 目前擅长的是闪电。

建造山峰是另一回事，那需要的不是连接已有知识，而是创造出一套新的思考框架。

而且这套框架的价值，可能要等一百年才能被验证。

这就把我们带回到了伽罗瓦。

一百年的验证循环

Dwarkesh 问了一个很尖锐的问题：如果伽罗瓦的想法需要一百年才能被验证，你怎么可能训练 AI 产生这样的想法？

目前 AI 在数学上取得突破的核心训练方法叫 RLVR，基于可验证奖励的强化学习。

逻辑很简单：给 AI 一道题，它给出答案，答案对了就奖励，答案错了就惩罚，反复迭代，AI 就学会了解题。

这个方法在数学竞赛题、代码运行结果这类场景里效果很好，因为答案是确定的，对错是即时可知的。

但伽罗瓦式的洞见没有这种反馈。

更糟糕的是，Grant 指出，伽罗瓦在世时，当时的"验证器"，也就是学术界，给出的反馈是：不行。

他的论文被拒了，他的想法被认为不够清晰、不够完整。

从 RLVR 的角度看，这个想法应该被惩罚，被遗忘。

但它是对的。

这不是个例。拉格朗日在伽罗瓦之前五十年，就有了用对称性研究多项式的直觉，但他没有解决任何问题，只是问了一个新的问题。

当时没有任何验证信号告诉他这是正确方向。

更深的困境：不只是 AI 的训练环境无法捕捉这种价值，连当时的人类验证器也无法捕捉。

Grant 提到了一个他很喜欢的数学论文开头，来自数学家 Timothy Chow，他在研究"强迫法"这个概念时写道：大家都知道什么叫未解决的研究问题，我想提出一个新概念：未解决的阐释问题。我们已经证明，但我们还不理解为什么它是对的。

证明和理解，是两件不同的事。

这个区分，在 AI 时代变得异常重要。

可验证，还不够，还得能"磨"

很多人把 AI 在数学上的快速进步归因于数学的可验证性。

答案对就是对，错就是错，这给了 AI 一个清晰的训练信号。

Grant 和 Dwarkesh 都认为这只说对了一半。另一半，是一个很少被提到的概念：可磨性。

你可以把一道题的状态打包，同时跑一千个并行实例，让它们各自尝试不同路径，对的路径留下，错的丢掉，信用分配问题清晰可解。

代码也一样，把一个代码库状态打包成容器，派出几百个 agent 各自尝试实现某个功能，结果完全确定，成功和失败的差异就是有效信号。

然后他们举了一个反例：电脑操作（computer use）。

同样是可验证的，"我的包裹到了吗"有明确答案，"我的会议预订成功了吗"也有明确答案。

但你没法同时跑一千个亚马逊结账流程，因为网站有反爬虫机制。

你可以尝试克隆每一个网站，但那极其耗费人力，而且跟不上网站的更新速度。

这就是为什么 AI 在电脑操作上的进展远慢于数学和代码，尽管它同样是可验证的。

可验证是必要条件，可磨练才是充分条件。

现实世界里大多数任务都无法容器化，无法重复磨练。

你没法把"今天去市场上交易赚钱"这件事容器化，因为市场每天都不一样，你没法重放。

数学和代码是例外，这才是 AI 在这两个领域突飞猛进的真正原因。

自回归是一种奇怪的思考方式

理解了可磨性，就能理解另一个问题：为什么 AI 擅长连接闪电，却很难建造山峰。

这要从 AI 的工作方式说起。

Grant 用了一个很形象的比喻。

想象你被关在一个箱子里，外界和你交流的唯一方式是：递给你一张纸条，问你"下一个词是什么"，你预测，然后记忆被清空，再递给你下一张纸条。这个过程重复无数次之后，外面的人把所有你预测的词拼在一起，给你看："你看，这是你写的文章。"

你可能会说：这太糟糕了，这根本不是我会写的东西。

这就是自回归语言模型的工作方式。

它在每一步都在预测下一个最可能的词，而不是像一个作家那样，先在脑子里有一个整体的结构，然后逐步填充细节。

这对数学意味着什么？

数学里最有价值的进展，往往是那种"不太可能出现的下一个词"，是那道从一个领域跳到另一个领域的闪电。

但在自回归的框架里，你在某个数学领域的上下文里，下一个最可能的词，是这个领域里的词，而不是另一个领域里的词。

跨领域的连接，在自回归的逻辑里，是一种低概率事件。

那么 AI 是怎么开始做到这件事的？

Dwarkesh 的猜测是：训练环境。如果你设计一批专门需要跨领域连接才能解决的问题，让 AI 反复在这类问题上磨练，它就会被迫学会在自回归的框架里，预测"让我看看另一个领域有没有类似的结构"这个动作。

这和 AI 学会成为更好的编程 agent 的逻辑是一样的。

它学会了在自回归的框架里，预测"让我退一步，重新审视整个代码库"这个动作，因为这个动作在训练数据里被反复验证是有效的。

但建造山峰需要的不是这种。

建造山峰需要的是：在没有任何验证信号的情况下，坚持一个模糊的直觉，然后围绕这个直觉构建一套全新的语言。

这不是低概率的下一个词。这是一种完全不同的思维模式。

AI 最被低估的优势，不是它有多聪明

对话里有一个洞察，Grant 和 Dwarkesh 都提到了，但没有被充分展开，我觉得值得单独说。

我们通常讨论 AI 有多聪明，但我们很少讨论 AI 的另一种优势：它可以被无限并行化。

回到 Montgomery 和 Dyson 在普林斯顿吃午饭的故事。

那次偶遇是一个偶然事件。两个领域的专家恰好在同一个地方，恰好聊起了各自的工作，恰好发现了联系。

高等研究院之所以把一堆顶尖学者放在同一个地方，就是为了制造这种偶然性。

AI 不需要这种运气。

你可以让一个精通随机矩阵理论的 agent 和一个精通解析数论的 agent 系统性地对话，搜索所有可能的联系。

更进一步，你可以同时跑一千个这样的对话，覆盖所有可能的领域组合。

这不只是速度的提升，这是一种结构性的优势。

人类科学史上那些改变方向的偶然相遇，在 AI 的框架里可以被系统性地工程化。

还有另一个维度。

单位距离猜想之所以很长时间没有被解决，一个重要原因是大多数数学家都相信这个猜想是对的，所以他们在尝试证明它，而不是尝试找反例。

这是一种集体性的认知偏差。

AI 可以同时跑两组 agent，一组尝试证明，一组尝试证伪。这不是什么高深的技术，但它系统性地消除了人类研究中那种先入为主的偏见。

Grant 还提到了一个更有趣的可能性：给不同的 agent 植入不同的启发式。

爱因斯坦有一个强烈的偏见：物理规律在不同参考系下应该看起来一样。

这个偏见是相对论的核心驱动力。但他也有另一个偏见：上帝不掷骰子。这个偏见让他在量子力学上走错了方向。

你不能让所有 AI 都是爱因斯坦。

你需要多样性。你可以系统性地给不同 agent 植入不同的启发式，然后看哪些启发式在哪类问题上是有效的。

这是一种老式软件的思维：枚举所有可能的策略，然后并行探索。

但用在科学研究上，它的潜力是巨大的。

Lean：被高估的训练工具，被低估的探索引擎

形式化证明语言 Lean 在 AI 数学圈里被频繁提及，很多人认为它是 AI 突破数学的关键。

Grant 的看法是：对于当前的进展，Lean 的重要性被高估了。

DeepMind 最初用 Lean 做 IMO，第二年就切换到了自然语言，效果反而更好。

AI 解决单位距离猜想反例时，公开的推理链里没有任何 Lean。

过程监督的价值，似乎远不如一个可磨练的结果验证。

但 Lean 有另一个独特价值，而且这个价值目前还没有被充分开发。

Lean 可以让 AI 完全自主地跑，不需要人类介入。

Mathlib 是一个用代码写成的数学库，目标是把所有数学都形式化进去。

你可以想象一个 AI，被告知"去扩展 Mathlib"，然后就让它跑，不需要任何人审核每一步，因为每一步的正确性都可以被自动验证。

它可以自己提出猜想，自己构建定义，自己生长出一棵逻辑树。

Grant 说，你可以按下开始键，倒十年的计算资源进去，然后回来看它发现了什么。

这让人想到 AlphaGo。

AlphaGo 可以在自己的宇宙里无限对弈，不需要人类介入，因为围棋的规则是完全确定的，胜负是自动可验证的。

它在这个封闭宇宙里探索出了人类从未想到过的走法，第 37 手是其中最著名的一个。

Lean 给数学提供了类似的可能性。

一个在 Lean 世界里自主探索的 AI，可能会发现人类从未想到过的数学结构。

但这里有一个问题：它发现的东西，有多少是有用的？

Grant 提到，Terry Tao 曾经谈到一个研究项目，想要穷举搜索所有可能的代数公理系统。

群论有一套公理，但如果你系统性地尝试所有可能的公理组合，会不会发现一些全新的、有趣的代数结构？

大部分结果会是垃圾，但偶尔会有一个小岛，一套公理系统，能产生丰富的定理，值得深入研究。

这是 Lean 真正有趣的地方：不是作为训练工具，而是作为探索引擎。

黎曼猜想被证明之后，我们会理解它吗

对话里有一个让人印象深刻的担忧：AI 可能会证明黎曼猜想，但我们对数学的理解不会因此增进任何东西。

Grant 把可能的解法分成三类。

第一类是闪电：发现两个领域之间的联系，比如黎曼 zeta 函数的零点和随机矩阵理论之间的关系。这类解法对人类是可理解的，甚至可能推进人类的理解。

第二类是山峰：构建一套全新的数学框架，就像 Wiles 证明 Fermat 大定理时需要先建起椭圆曲线和模形式这两座山。这类解法需要人类花大量时间去理解这座新山，但最终是可以理解的。

第三类是蛮力：一个几千页的证明，没有任何新的概念，只是穷举了所有可能的情况。这类证明在技术上是正确的，但对人类的理解毫无帮助。

Grant 提到了一个真实存在的类比：abc 猜想的"证明"。

日本数学家望月新一提出了一套叫做"宇宙际 Teichmüller 理论"的全新框架，声称可以证明 abc 猜想。

这套理论如此陌生，以至于数学界花了多年时间都无法判断它是否正确。

最终的主流判断是它可能有错误，但争议至今未完全平息。

这就是"外星数学"的样子：一座新山，但没有人能爬上去，甚至不确定这座山是否真的存在。

如果 AI 产生了这样的东西，而且是错的，那就是灾难性的浪费。

如果是对的，那也需要巨大的人力投入去消化。

David Bessis 在一篇博文《定理经济的崩塌》里提出：历史上，定理证明和概念创造是绑定在一起的，因为提出定义的人，往往也是证明定理的人。但如果 AI 自动化了定理证明，而人类还在负责提出定义，这个绑定就断裂了。

有一句话在数学圈里流传：好的数学家证明定理，伟大的数学家提出猜想，最伟大的数学家提出定义。

AI 正在从最底层往上爬。

它已经能证明定理，开始能提出猜想。但提出定义，也就是创造出一套新的思考语言，那是伽罗瓦做的事情。

AI 为什么写作越来越烂，但数学越来越好

写作烂，有两个原因。

第一个是奖励黑客。AI 的写作训练，本质上是在优化"看起来像好文章"，而不是"真正是好文章"。它学会了所有好文章的表面特征，然后把这些特征堆在一起。结果是一篇击中了所有评分标准，但没有任何真正洞察的文章。

第二个更深：写作本身就是产品，而不是产品的生产过程。

代码可以是烂的，只要它运行正确。一个函数可以写得很丑，但如果它输出了正确的结果，就是合格的。

数学证明也类似，一个引理可以用很多种方式证明，只要结论正确就行。

但写作不一样。

每一个词、每一句话都是最终交付物，不能有废料。

而且好的写作需要在每一个句子处都建模读者的心理状态，预判读者此刻脑子里在想什么，然后决定下一步怎么走。

Grant 提到了一个有趣的实验：打了肉毒杆菌的人，因为面部肌肉被冻住，无法模仿他人表情，在识别他人情绪方面的能力显著下降。理解他人情绪的一部分机制，是用自己的脸去"复现"对方的表情。

AI 没有脸。

它理解读者心理的方式，是一种从大量文本中涌现出来的能力，而不是内置的硬件。

这可能是它在写作上的根本性局限。

但这里有一个有趣的反驳。

Dwarkesh 说：AI 已经越来越擅长写不只是能运行、而且干净整洁、可以直接合并的代码。为什么这种进步没有同样发生在写作上？

Grant 的回答是：也许它已经发生了，只是我们没有注意到。他说，他现在遇到一篇难懂的文章，第一反应是把它粘贴给 LLM，让它解释给他听。解释往往比原文更清楚。

但他也承认：解释是一回事，创作是另一回事。解释是把已有的东西说清楚，创作是决定什么值得说。

AI 在前者上已经很好，在后者上还差得远。

这个区分，和证明与理解的区分，是同一枚硬币的两面。

数学家的未来：博物馆策展人

Grant 在对话里提到了一个比喻：未来的数学家，可能更像是博物馆策展人，而不是定理证明者。

AI 解决了问题，甚至能很好地解释它。

但数学的空间是近乎无限的，哪些问题值得研究，哪些方向值得投入，哪些新发现值得关注，这需要有人来做导航。

这不只是技术判断，也是一种社会功能。

Grant 自己就是一个例子。

他的工作里，很大一部分时间花在"决定什么值得说"上，而不是制作视觉效果。

听众信任他的品味，愿意跟着他的视角去探索。

这种信任是关系性的，不是纯粹信息性的。

他还提到，即便 AI 在某些方面比人类更擅长策展，人们依然会倾向于选择与自己有真实关系的人类策展人，因为我们对事物产生兴趣，本质上是一种社会现象。

这个逻辑延伸到了教学。

Grant 认为，教学可能是 AGI 时代最稳定的职业之一，不是因为 AI 不能解释概念，而是因为教学本质上是一种社交和陪伴式的活动，远超出"解释概念"的范畴。

他还提到了一个细节：一个好老师，当学生问出一个奇怪问题的时候，能够识别出这个问题背后的思维结构，然后顺着学生的思路把它引导到正确方向，而不是直接说"你这样想不对，应该这样"。

他把这个叫做柔道式教学。

AI 目前做不到这一点，它太顺从了，太倾向于直接给答案，而不是重构问题。

给数学从业者的一个实际建议

Grant 对那些担心 AI 会取代自己的数学学生，给了一个很朴素的建议：想清楚钱从哪里来，你在这条链路上提供了什么价值。

这听起来很功利，但他的意思是：很多学生选择数学，是因为一路被夸"你很擅长这个"，然后顺着这条路走下去，从没认真想过自己在为谁创造什么价值。

大学里的数学教授，有人靠的是声誉为学校带来品牌价值，有人靠的是 NSF 资助基础科学，有人靠的是直接教学。

这三条路在 AI 时代的稳定性完全不同。

他还提到了一个更长远的可能性：如果 AI 真的在未来五到十年内开始提出全新的数学问题和数学领域，那么"帮助人类理解 AI 发现了什么"会成为一个真实的需求。

在那个世界里，数学教育者和数学传播者的价值，可能比现在更高，而不是更低。

如果 AI 真的看到了人类从未看到的东西，那么能够理解这些东西、并且判断它们在哪里有用的人，会变得极其有价值。

数学家从"证明定理的人"变成"理解 AI 发现了什么、并且把它指向正确方向的人"，这个角色的经济价值可能比以前更高。

再次回到伽罗瓦。

他在监狱里写下那些笔记的时候，他知道自己发现了什么吗？

他有一种直觉，觉得这是重要的。但他无法证明它，无法解释它，甚至无法清晰地表达它。当时最权威的验证器，学术界，告诉他：不行。

他死了。笔记沉睡了二十年。又过了二十年才被整理清楚。又过了一百年才被用来预测夸克。

现在，我们有了能证明定理的 AI，有了能连接领域的 AI，也许很快会有能建造新山峰的 AI。

但那种"我不知道为什么，但我觉得这里有什么东西"的直觉，以及在没有任何验证信号的情况下坚持它的能力，我们还不知道怎么训练，甚至不知道怎么识别。

这可能是整个故事里，最后一个真正有趣的问题。