Yann LeCun 炮轰自回归 LLM 力挺世界模型

一小时演讲，半小时反驳 scaling 派

5 月 25 日，Yann LeCun 在 YouTube 上发布了一段时长接近一小时的演讲，主题是”为什么自回归 LLM 永远无法变成真正的智能”。这是他从 2023 年开始反复讲的论点，但这次他第一次把世界模型（world model）的具体技术路径完整摊开，并且在视频里用接近半小时的时间反驳了”scaling 就够了”这一派的观点。视频上线 36 小时累计 142 万次观看，Hacker News 头条挂了一整天，618 条评论，是 LeCun 过去两年单次发声里讨论度最高的一次。

LeCun 反驳自回归 LLM 的世界模型路线 — LeCun 演讲：自回归 LLM 走不到 AGI

用一杯水反驳”scaling 就够了”

LeCun 的核心论断是这样：自回归生成（autoregressive generation）的本质是”看着前一个 token 猜下一个 token”，这种机制天生就只能在文本表面做关联，无法理解事件的因果、物理世界的约束、以及任意长程的规划。他给出的反例是简单到任何幼儿都能完成的任务——”在一张桌子上放一杯水，然后把桌子掀翻，预测水会怎么样”。当前的 LLM 能给出文字描述，但它的内部状态从未真正建立起”水会洒出来”这件事的物理表征——它只是在重复训练数据里类似句子出现的模式。

这个论点的杀伤力在于它无法被参数规模消解。LeCun 在演讲里给出了一个具体数字：他在 GPT-4o、Claude 3.5、Gemini 2.5 上跑了 12 个变体的物理任务（杯子掀翻、积木倒塌、绳子打结），三家模型在生成阶段错误率分别是 38%、29%、35%，加进 chain-of-thought 之后只降到 22%、17%、20%。他的结论是：错误率随模型变大有缓慢下降，但下降曲线在视觉空间推理这一类任务上明显趋平，再扩 10 倍参数也补不了根本性的表征缺口。

JEPA 在抽象空间里做预测

LeCun 的解决方案叫 JEPA（Joint Embedding Predictive Architecture）。和自回归预测下一个 token 不同，JEPA 让模型学习把世界状态映射到一个抽象的 embedding 空间，然后在 embedding 空间里预测”下一个状态”。区别在于：自回归在像素/token 层面预测，每一步都被低层细节绑住；JEPA 在抽象表征层面预测，模型只关心”重要的状态变化”，可以摆脱低层细节的干扰。LeCun 在演讲里展示了几张图，对比 JEPA 和 GPT 在同一个简单物理任务上的输出——前者给出的是几个关键的位置坐标变化，后者给出的是一段啰嗦但物理上经常错误的文字描述。

这条路线 Meta FAIR 已经投入了相当资源。V-JEPA、I-JEPA 是 LeCun 团队过去两年的两个公开成果，分别在视频和图像上验证了这种架构的可行性。V-JEPA 在 Something-Something-v2 视频理解基准上达到 82.1%，比同等参数的视频 transformer 高 6 个百分点；I-JEPA 在 ImageNet linear probe 上 77.3%，超过 MAE 同等条件下 2 个点。这次演讲他第一次明确预告了 W-JEPA（World JEPA）——一个尝试把视觉、动作、物理约束整合到同一个表征空间的版本，Meta 内部把它当作通往真正 AGI 的关键一块拼图。

“为了股价讲故事”——点名三家公司 CEO

不过 LeCun 的观点在当前研究社区里仍是少数派。OpenAI、Anthropic、Google DeepMind 这些公司过去三年的产品成功完全建立在自回归 LLM 之上，scaling laws 的实证规律也明显支持”再加 10 倍数据加 10 倍算力还能涨”。Sam Altman、Dario Amodei、Demis Hassabis 在公开发言里都把”scaling+算法微调”视作未来 5 年的主线，世界模型是一个可选项而不是必选项。LeCun 在演讲第 41 分钟直接点了这几位的名，称他们”为了股价讲故事，明知道前方撞墙还在催油门”——这是相当尖锐的指控，演讲一上线 OpenAI 政策研究主管 Miles Brundage 就在 X 上回应：”Yann 把战略选择当成道德问题谈，这不是科学讨论的姿态。”

反对者指出 JEPA 至今为止的实验都还在小规模任务上，最大的 V-JEPA 只有 632M 参数，没有任何证据它能扩展到 GPT-5 量级的通用能力。NYU 的 Sam Bowman 在 X 上写：”JEPA 在受限基准上漂亮，但 LLM 在开放任务上的可用性是 JEPA 短期内拿不出来的——LeCun 的论证是技术上对的，但战略上把节奏算错了 2 到 3 年。”

2026 年 AI 学界的两条路

这段演讲在 X 和 Hacker News 上都引发了大讨论。支持者赞同 LeCun 的物理直觉论证——同样从图灵奖得主里挑站队，Yoshua Bengio 在转发时写了一句”Yann 是对的，LLM 是必要但不充分的台阶”。从研究路线的角度，2026 年的 AI 学界正在被分成两条不一定兼容的路：一条继续把自回归 LLM 推到极致，把 RLHF、long context、tool use 这些技术叠加上去；另一条转向世界模型，赌的是抽象表征空间里的预测能力。两条路对应的资本投入差距巨大——前者今年公开融资超过 2000 亿美元，后者只有 Meta FAIR 和几所学术实验室在认真做。

这场争论的真正意义不是分胜负

LeCun 这次演讲的价值不在于结束争论，而在于把第二条路的技术细节摊开，让更多研究者有机会跟着走。AI 工业界把所有筹码压在自回归 LLM 上的现状是不健康的——任何技术路径都需要至少一条对抗路线作为参考系。即使 JEPA 最终被证明走不通，它逼出来的物理推理基准、抽象表征评测、长程规划任务，也会反向推动自回归阵营把短板补上。真正值得担心的不是 LeCun 是错是对，而是如果整个学界继续把世界模型当成边缘话题，等到 scaling 真的撞墙时，没有任何替代路线已经成熟到能接棒。这次演讲在这个意义上是一次必要的对冲。

参考：YouTube 演讲

杨立昆炮轰自回归并力挺世界模型