本文经原作者授权转载,版权归原作者所有。原作者:向阳乔木(@vista8)。


https://www.youtube.com/watch?v=TfyPshgMbug

一个 19 岁的少年,在监狱里写下了一套没人看懂的数学笔记。

他把笔记托付给朋友,请他转交给当时最伟大的数学家高斯,朋友尽力了,但没有成功。

这个少年在一场决斗中死去,年仅 20 岁。

又过了二十年,一位叫刘维尔的数学家翻出这些笔记,觉得里面可能有点东西。

又过了二十年,有人把这些想法整理成现代数学能读懂的形式。

再过一百年,物理学家盖尔曼用这套理论预测了夸克的存在。

这个少年叫伽罗瓦。他留下的东西,叫群论。

从一个模糊的直觉,到改变物理学,中间隔了将近两百年。

在这两百年里,这个想法被拒稿,被遗忘,被误解,在多个人的脑子里辗转流传,才慢慢结晶成一座数学的山峰。

现在,有人想用 AI 来做同样的事。

问题是:你怎么训练一个系统,去产生一个需要两百年才能被验证的想法?

这是 Grant Sanderson 和 Dwarkesh Patel 在 2026 年初的一场对话里反复触碰的困境。

Grant 是 3Blue1Brown 的创始人,YouTube 上最受欢迎的数学频道,几百万订阅者。

但他的身份很奇特:他不做研究数学,他解释数学。

他的整个职业,就是在回答"理解和证明有什么区别"这个问题,这让他在 AI 和数学的讨论里,站在一个很特殊的位置。

Dwarkesh 是一个播客主,专门采访 AI 领域最顶尖的研究者和创始人,他的优势是局外人的视角,他的问题往往比答案更有趣。

他们聊了两个多小时,以下是这场对话的精华提炼。

IMO 金牌:一个没有改变任何事情的里程碑

三年前,Dwarkesh 问过 Grant 一个问题:当 AI 能在国际数学奥林匹克(IMO)拿金牌的时候,那是不是就等于 AGI 了?

IMO 的题目需要真正的创造力,连专门训练过的顶尖学生都未必能全解。

如果 AI 能做到,它不就什么都能做了吗?

Grant 当时的回答是:不会的。那只是又一个被超越的基准,不会有顿悟时刻。

他是对的。

2024 年,AI 在 IMO 上的表现已经达到金牌水准,世界没有因此改变,没有人突然觉得 AGI 到来了,没有经济结构发生剧变,数学家们继续做他们的研究。

IMO 的题目分四类:几何、数论、代数、组合数学。

AI 在几何上的表现是 19 秒解完,因为有暴力求解器可以直接上,而且几何题有相对固定的训练路径可以覆盖大部分题型。

但组合数学不一样。那些题目更像是谜题,需要一种"玩感",需要从意想不到的角度切入。

2024 年的 IMO 恰好有两道组合数学题,AI 在这里卡住了。

如果那年的题目多一道几何、少一道组合,AI 就能拿金牌。

AI 的能力边界不是一条平滑的曲线,而是锯齿状的。

即便在数学这一个领域内部,不同方向的进展也差异巨大,把 AI 能力想象成一个整体,是一种系统性的误判。

而且,IMO 的"脏秘密"是,它的很多题目其实是可以训练的。

题目设计者会努力出那些不容易被刷题覆盖的题,但终究有限。

组合数学之所以是最后的堡垒,不是因为它最难,而是因为它最难被系统化地训练。

这个逻辑,在接下来的整个讨论里会反复出现。

一道闪电,和一座山峰

Grant 提出了一个框架,是整场对话最有价值的部分。

他把 AI 在数学上可能取得的进展分成两种截然不同的类型。

第一种,叫连接闪电。

2025 到 2026 年间,AI 解决了几个引人注目的数学问题。

其中一个是 Erdős 第 1196 号问题,关于"原始集合"的猜想。

AI 的解法,是把另一个领域的工具引入进来,在两个看似无关的数学领域之间打了一道闪电(知识连接)。

这类进展有一个特点:对人类来说是可理解的。

你只需要看到闪电的起点和终点,剩下的推导对领域内的人来说是自然的,你把这个想法说给一个懂行的数学家听,他会立刻知道怎么展开。

另一个例子是单位距离猜想的反例。

AI 公开了推理链,数学家们读了之后,觉得是可以理解的,而且这个反例实际上加速了人类对这个问题的理解。

AI 为什么擅长这种连接?

因为它同时精通量子物理、解析数论、随机矩阵理论……它能看到那种跨领域的相似性,而不需要靠两个人在午饭时偶然聊起来。

这里有一个具体的故事。

数学家 Hugh Montgomery 在研究黎曼 zeta 函数的零点分布时,写下了一个公式。

物理学家 Freeman Dyson 看到这个公式,说:我认识这个表达式,它出现在研究随机厄米矩阵的特征值分布时,那是核能级的量子力学问题。

两个看似毫不相关的领域,零点统计和随机矩阵理论,居然有相同的数学结构。

这个发现开启了一整个研究方向。

而这个发现,是靠两个人在普林斯顿高等研究院吃午饭时偶然聊起来的。

第二种,叫建造山峰。

Fermat 大定理的证明是这种。

你需要先建起椭圆曲线这座山,再建起模形式这座山,然后才能在山顶之间架桥。

这两座山本身就是全新的数学体系,需要几代人的积累才能建成。

群论也是这种。

伽罗瓦没有解决一个已知的问题,他创造了一套新的思考框架。

AI 目前擅长的是闪电。

建造山峰是另一回事,那需要的不是连接已有知识,而是创造出一套新的思考框架。

而且这套框架的价值,可能要等一百年才能被验证。

这就把我们带回到了伽罗瓦。

一百年的验证循环

Dwarkesh 问了一个很尖锐的问题:如果伽罗瓦的想法需要一百年才能被验证,你怎么可能训练 AI 产生这样的想法?

目前 AI 在数学上取得突破的核心训练方法叫 RLVR,基于可验证奖励的强化学习。

逻辑很简单:给 AI 一道题,它给出答案,答案对了就奖励,答案错了就惩罚,反复迭代,AI 就学会了解题。

这个方法在数学竞赛题、代码运行结果这类场景里效果很好,因为答案是确定的,对错是即时可知的。

但伽罗瓦式的洞见没有这种反馈。

更糟糕的是,Grant 指出,伽罗瓦在世时,当时的"验证器",也就是学术界,给出的反馈是:不行。

他的论文被拒了,他的想法被认为不够清晰、不够完整。

从 RLVR 的角度看,这个想法应该被惩罚,被遗忘。

但它是对的。

这不是个例。拉格朗日在伽罗瓦之前五十年,就有了用对称性研究多项式的直觉,但他没有解决任何问题,只是问了一个新的问题。

当时没有任何验证信号告诉他这是正确方向。

更深的困境:不只是 AI 的训练环境无法捕捉这种价值,连当时的人类验证器也无法捕捉。

Grant 提到了一个他很喜欢的数学论文开头,来自数学家 Timothy Chow,他在研究"强迫法"这个概念时写道:大家都知道什么叫未解决的研究问题,我想提出一个新概念:未解决的阐释问题。我们已经证明,但我们还不理解为什么它是对的。

证明和理解,是两件不同的事。

这个区分,在 AI 时代变得异常重要。

可验证,还不够,还得能"磨"

很多人把 AI 在数学上的快速进步归因于数学的可验证性。

答案对就是对,错就是错,这给了 AI 一个清晰的训练信号。

Grant 和 Dwarkesh 都认为这只说对了一半。另一半,是一个很少被提到的概念:可磨性。

你可以把一道题的状态打包,同时跑一千个并行实例,让它们各自尝试不同路径,对的路径留下,错的丢掉,信用分配问题清晰可解。

代码也一样,把一个代码库状态打包成容器,派出几百个 agent 各自尝试实现某个功能,结果完全确定,成功和失败的差异就是有效信号。

然后他们举了一个反例:电脑操作(computer use)。

同样是可验证的,"我的包裹到了吗"有明确答案,"我的会议预订成功了吗"也有明确答案。

但你没法同时跑一千个亚马逊结账流程,因为网站有反爬虫机制。

你可以尝试克隆每一个网站,但那极其耗费人力,而且跟不上网站的更新速度。

这就是为什么 AI 在电脑操作上的进展远慢于数学和代码,尽管它同样是可验证的。

可验证是必要条件,可磨练才是充分条件。

现实世界里大多数任务都无法容器化,无法重复磨练。

你没法把"今天去市场上交易赚钱"这件事容器化,因为市场每天都不一样,你没法重放。

数学和代码是例外,这才是 AI 在这两个领域突飞猛进的真正原因。

自回归是一种奇怪的思考方式

理解了可磨性,就能理解另一个问题:为什么 AI 擅长连接闪电,却很难建造山峰。

这要从 AI 的工作方式说起。

Grant 用了一个很形象的比喻。

想象你被关在一个箱子里,外界和你交流的唯一方式是:递给你一张纸条,问你"下一个词是什么",你预测,然后记忆被清空,再递给你下一张纸条。这个过程重复无数次之后,外面的人把所有你预测的词拼在一起,给你看:"你看,这是你写的文章。"

你可能会说:这太糟糕了,这根本不是我会写的东西。

这就是自回归语言模型的工作方式。

它在每一步都在预测下一个最可能的词,而不是像一个作家那样,先在脑子里有一个整体的结构,然后逐步填充细节。

这对数学意味着什么?

数学里最有价值的进展,往往是那种"不太可能出现的下一个词",是那道从一个领域跳到另一个领域的闪电。

但在自回归的框架里,你在某个数学领域的上下文里,下一个最可能的词,是这个领域里的词,而不是另一个领域里的词。

跨领域的连接,在自回归的逻辑里,是一种低概率事件。

那么 AI 是怎么开始做到这件事的?

Dwarkesh 的猜测是:训练环境。如果你设计一批专门需要跨领域连接才能解决的问题,让 AI 反复在这类问题上磨练,它就会被迫学会在自回归的框架里,预测"让我看看另一个领域有没有类似的结构"这个动作。

这和 AI 学会成为更好的编程 agent 的逻辑是一样的。

它学会了在自回归的框架里,预测"让我退一步,重新审视整个代码库"这个动作,因为这个动作在训练数据里被反复验证是有效的。

但建造山峰需要的不是这种。

建造山峰需要的是:在没有任何验证信号的情况下,坚持一个模糊的直觉,然后围绕这个直觉构建一套全新的语言。

这不是低概率的下一个词。这是一种完全不同的思维模式。

AI 最被低估的优势,不是它有多聪明

对话里有一个洞察,Grant 和 Dwarkesh 都提到了,但没有被充分展开,我觉得值得单独说。

我们通常讨论 AI 有多聪明,但我们很少讨论 AI 的另一种优势:它可以被无限并行化。

回到 Montgomery 和 Dyson 在普林斯顿吃午饭的故事。

那次偶遇是一个偶然事件。两个领域的专家恰好在同一个地方,恰好聊起了各自的工作,恰好发现了联系。

高等研究院之所以把一堆顶尖学者放在同一个地方,就是为了制造这种偶然性。

AI 不需要这种运气。

你可以让一个精通随机矩阵理论的 agent 和一个精通解析数论的 agent 系统性地对话,搜索所有可能的联系。

更进一步,你可以同时跑一千个这样的对话,覆盖所有可能的领域组合。

这不只是速度的提升,这是一种结构性的优势。

人类科学史上那些改变方向的偶然相遇,在 AI 的框架里可以被系统性地工程化。

还有另一个维度。

单位距离猜想之所以很长时间没有被解决,一个重要原因是大多数数学家都相信这个猜想是对的,所以他们在尝试证明它,而不是尝试找反例。

这是一种集体性的认知偏差。

AI 可以同时跑两组 agent,一组尝试证明,一组尝试证伪。这不是什么高深的技术,但它系统性地消除了人类研究中那种先入为主的偏见。

Grant 还提到了一个更有趣的可能性:给不同的 agent 植入不同的启发式。

爱因斯坦有一个强烈的偏见:物理规律在不同参考系下应该看起来一样。

这个偏见是相对论的核心驱动力。但他也有另一个偏见:上帝不掷骰子。这个偏见让他在量子力学上走错了方向。

你不能让所有 AI 都是爱因斯坦。

你需要多样性。你可以系统性地给不同 agent 植入不同的启发式,然后看哪些启发式在哪类问题上是有效的。

这是一种老式软件的思维:枚举所有可能的策略,然后并行探索。

但用在科学研究上,它的潜力是巨大的。

Lean:被高估的训练工具,被低估的探索引擎

形式化证明语言 Lean 在 AI 数学圈里被频繁提及,很多人认为它是 AI 突破数学的关键。

Grant 的看法是:对于当前的进展,Lean 的重要性被高估了。

DeepMind 最初用 Lean 做 IMO,第二年就切换到了自然语言,效果反而更好。

AI 解决单位距离猜想反例时,公开的推理链里没有任何 Lean。

过程监督的价值,似乎远不如一个可磨练的结果验证。

但 Lean 有另一个独特价值,而且这个价值目前还没有被充分开发。

Lean 可以让 AI 完全自主地跑,不需要人类介入。

Mathlib 是一个用代码写成的数学库,目标是把所有数学都形式化进去。

你可以想象一个 AI,被告知"去扩展 Mathlib",然后就让它跑,不需要任何人审核每一步,因为每一步的正确性都可以被自动验证。

它可以自己提出猜想,自己构建定义,自己生长出一棵逻辑树。

Grant 说,你可以按下开始键,倒十年的计算资源进去,然后回来看它发现了什么。

这让人想到 AlphaGo。

AlphaGo 可以在自己的宇宙里无限对弈,不需要人类介入,因为围棋的规则是完全确定的,胜负是自动可验证的。

它在这个封闭宇宙里探索出了人类从未想到过的走法,第 37 手是其中最著名的一个。

Lean 给数学提供了类似的可能性。

一个在 Lean 世界里自主探索的 AI,可能会发现人类从未想到过的数学结构。

但这里有一个问题:它发现的东西,有多少是有用的?

Grant 提到,Terry Tao 曾经谈到一个研究项目,想要穷举搜索所有可能的代数公理系统。

群论有一套公理,但如果你系统性地尝试所有可能的公理组合,会不会发现一些全新的、有趣的代数结构?

大部分结果会是垃圾,但偶尔会有一个小岛,一套公理系统,能产生丰富的定理,值得深入研究。

这是 Lean 真正有趣的地方:不是作为训练工具,而是作为探索引擎。

黎曼猜想被证明之后,我们会理解它吗

对话里有一个让人印象深刻的担忧:AI 可能会证明黎曼猜想,但我们对数学的理解不会因此增进任何东西。

Grant 把可能的解法分成三类。

第一类是闪电:发现两个领域之间的联系,比如黎曼 zeta 函数的零点和随机矩阵理论之间的关系。这类解法对人类是可理解的,甚至可能推进人类的理解。

第二类是山峰:构建一套全新的数学框架,就像 Wiles 证明 Fermat 大定理时需要先建起椭圆曲线和模形式这两座山。这类解法需要人类花大量时间去理解这座新山,但最终是可以理解的。

第三类是蛮力:一个几千页的证明,没有任何新的概念,只是穷举了所有可能的情况。这类证明在技术上是正确的,但对人类的理解毫无帮助。

Grant 提到了一个真实存在的类比:abc 猜想的"证明"。

日本数学家望月新一提出了一套叫做"宇宙际 Teichmüller 理论"的全新框架,声称可以证明 abc 猜想。

这套理论如此陌生,以至于数学界花了多年时间都无法判断它是否正确。

最终的主流判断是它可能有错误,但争议至今未完全平息。

这就是"外星数学"的样子:一座新山,但没有人能爬上去,甚至不确定这座山是否真的存在。

如果 AI 产生了这样的东西,而且是错的,那就是灾难性的浪费。

如果是对的,那也需要巨大的人力投入去消化。

David Bessis 在一篇博文《定理经济的崩塌》里提出:历史上,定理证明和概念创造是绑定在一起的,因为提出定义的人,往往也是证明定理的人。但如果 AI 自动化了定理证明,而人类还在负责提出定义,这个绑定就断裂了。

有一句话在数学圈里流传:好的数学家证明定理,伟大的数学家提出猜想,最伟大的数学家提出定义。

AI 正在从最底层往上爬。

它已经能证明定理,开始能提出猜想。但提出定义,也就是创造出一套新的思考语言,那是伽罗瓦做的事情。

AI 为什么写作越来越烂,但数学越来越好

写作烂,有两个原因。

第一个是奖励黑客。AI 的写作训练,本质上是在优化"看起来像好文章",而不是"真正是好文章"。它学会了所有好文章的表面特征,然后把这些特征堆在一起。结果是一篇击中了所有评分标准,但没有任何真正洞察的文章。

第二个更深:写作本身就是产品,而不是产品的生产过程。

代码可以是烂的,只要它运行正确。一个函数可以写得很丑,但如果它输出了正确的结果,就是合格的。

数学证明也类似,一个引理可以用很多种方式证明,只要结论正确就行。

但写作不一样。

每一个词、每一句话都是最终交付物,不能有废料。

而且好的写作需要在每一个句子处都建模读者的心理状态,预判读者此刻脑子里在想什么,然后决定下一步怎么走。

Grant 提到了一个有趣的实验:打了肉毒杆菌的人,因为面部肌肉被冻住,无法模仿他人表情,在识别他人情绪方面的能力显著下降。理解他人情绪的一部分机制,是用自己的脸去"复现"对方的表情。

AI 没有脸。

它理解读者心理的方式,是一种从大量文本中涌现出来的能力,而不是内置的硬件。

这可能是它在写作上的根本性局限。

但这里有一个有趣的反驳。

Dwarkesh 说:AI 已经越来越擅长写不只是能运行、而且干净整洁、可以直接合并的代码。为什么这种进步没有同样发生在写作上?

Grant 的回答是:也许它已经发生了,只是我们没有注意到。他说,他现在遇到一篇难懂的文章,第一反应是把它粘贴给 LLM,让它解释给他听。解释往往比原文更清楚。

但他也承认:解释是一回事,创作是另一回事。解释是把已有的东西说清楚,创作是决定什么值得说。

AI 在前者上已经很好,在后者上还差得远。

这个区分,和证明与理解的区分,是同一枚硬币的两面。

数学家的未来:博物馆策展人

Grant 在对话里提到了一个比喻:未来的数学家,可能更像是博物馆策展人,而不是定理证明者。

AI 解决了问题,甚至能很好地解释它。

但数学的空间是近乎无限的,哪些问题值得研究,哪些方向值得投入,哪些新发现值得关注,这需要有人来做导航。

这不只是技术判断,也是一种社会功能。

Grant 自己就是一个例子。

他的工作里,很大一部分时间花在"决定什么值得说"上,而不是制作视觉效果。

听众信任他的品味,愿意跟着他的视角去探索。

这种信任是关系性的,不是纯粹信息性的。

他还提到,即便 AI 在某些方面比人类更擅长策展,人们依然会倾向于选择与自己有真实关系的人类策展人,因为我们对事物产生兴趣,本质上是一种社会现象。

这个逻辑延伸到了教学。

Grant 认为,教学可能是 AGI 时代最稳定的职业之一,不是因为 AI 不能解释概念,而是因为教学本质上是一种社交和陪伴式的活动,远超出"解释概念"的范畴。

他还提到了一个细节:一个好老师,当学生问出一个奇怪问题的时候,能够识别出这个问题背后的思维结构,然后顺着学生的思路把它引导到正确方向,而不是直接说"你这样想不对,应该这样"。

他把这个叫做柔道式教学。

AI 目前做不到这一点,它太顺从了,太倾向于直接给答案,而不是重构问题。

给数学从业者的一个实际建议

Grant 对那些担心 AI 会取代自己的数学学生,给了一个很朴素的建议:想清楚钱从哪里来,你在这条链路上提供了什么价值。

这听起来很功利,但他的意思是:很多学生选择数学,是因为一路被夸"你很擅长这个",然后顺着这条路走下去,从没认真想过自己在为谁创造什么价值。

大学里的数学教授,有人靠的是声誉为学校带来品牌价值,有人靠的是 NSF 资助基础科学,有人靠的是直接教学。

这三条路在 AI 时代的稳定性完全不同。

他还提到了一个更长远的可能性:如果 AI 真的在未来五到十年内开始提出全新的数学问题和数学领域,那么"帮助人类理解 AI 发现了什么"会成为一个真实的需求。

在那个世界里,数学教育者和数学传播者的价值,可能比现在更高,而不是更低。

如果 AI 真的看到了人类从未看到的东西,那么能够理解这些东西、并且判断它们在哪里有用的人,会变得极其有价值。

数学家从"证明定理的人"变成"理解 AI 发现了什么、并且把它指向正确方向的人",这个角色的经济价值可能比以前更高。

再次回到伽罗瓦。

他在监狱里写下那些笔记的时候,他知道自己发现了什么吗?

他有一种直觉,觉得这是重要的。但他无法证明它,无法解释它,甚至无法清晰地表达它。当时最权威的验证器,学术界,告诉他:不行。

他死了。笔记沉睡了二十年。又过了二十年才被整理清楚。又过了一百年才被用来预测夸克。

现在,我们有了能证明定理的 AI,有了能连接领域的 AI,也许很快会有能建造新山峰的 AI。

但那种"我不知道为什么,但我觉得这里有什么东西"的直觉,以及在没有任何验证信号的情况下坚持它的能力,我们还不知道怎么训练,甚至不知道怎么识别。

这可能是整个故事里,最后一个真正有趣的问题。