一小时演讲,半小时反驳 scaling 派
5 月 25 日,Yann LeCun 在 YouTube 上发布了一段时长接近一小时的演讲,主题是”为什么自回归 LLM 永远无法变成真正的智能”。这是他从 2023 年开始反复讲的论点,但这次他第一次把世界模型(world model)的具体技术路径完整摊开,并且在视频里用接近半小时的时间反驳了”scaling 就够了”这一派的观点。视频上线 36 小时累计 142 万次观看,Hacker News 头条挂了一整天,618 条评论,是 LeCun 过去两年单次发声里讨论度最高的一次。

用一杯水反驳”scaling 就够了”
LeCun 的核心论断是这样:自回归生成(autoregressive generation)的本质是”看着前一个 token 猜下一个 token”,这种机制天生就只能在文本表面做关联,无法理解事件的因果、物理世界的约束、以及任意长程的规划。他给出的反例是简单到任何幼儿都能完成的任务——”在一张桌子上放一杯水,然后把桌子掀翻,预测水会怎么样”。当前的 LLM 能给出文字描述,但它的内部状态从未真正建立起”水会洒出来”这件事的物理表征——它只是在重复训练数据里类似句子出现的模式。
这个论点的杀伤力在于它无法被参数规模消解。LeCun 在演讲里给出了一个具体数字:他在 GPT-4o、Claude 3.5、Gemini 2.5 上跑了 12 个变体的物理任务(杯子掀翻、积木倒塌、绳子打结),三家模型在生成阶段错误率分别是 38%、29%、35%,加进 chain-of-thought 之后只降到 22%、17%、20%。他的结论是:错误率随模型变大有缓慢下降,但下降曲线在视觉空间推理这一类任务上明显趋平,再扩 10 倍参数也补不了根本性的表征缺口。
JEPA 在抽象空间里做预测
LeCun 的解决方案叫 JEPA(Joint Embedding Predictive Architecture)。和自回归预测下一个 token 不同,JEPA 让模型学习把世界状态映射到一个抽象的 embedding 空间,然后在 embedding 空间里预测”下一个状态”。区别在于:自回归在像素/token 层面预测,每一步都被低层细节绑住;JEPA 在抽象表征层面预测,模型只关心”重要的状态变化”,可以摆脱低层细节的干扰。LeCun 在演讲里展示了几张图,对比 JEPA 和 GPT 在同一个简单物理任务上的输出——前者给出的是几个关键的位置坐标变化,后者给出的是一段啰嗦但物理上经常错误的文字描述。
这条路线 Meta FAIR 已经投入了相当资源。V-JEPA、I-JEPA 是 LeCun 团队过去两年的两个公开成果,分别在视频和图像上验证了这种架构的可行性。V-JEPA 在 Something-Something-v2 视频理解基准上达到 82.1%,比同等参数的视频 transformer 高 6 个百分点;I-JEPA 在 ImageNet linear probe 上 77.3%,超过 MAE 同等条件下 2 个点。这次演讲他第一次明确预告了 W-JEPA(World JEPA)——一个尝试把视觉、动作、物理约束整合到同一个表征空间的版本,Meta 内部把它当作通往真正 AGI 的关键一块拼图。
“为了股价讲故事”——点名三家公司 CEO
不过 LeCun 的观点在当前研究社区里仍是少数派。OpenAI、Anthropic、Google DeepMind 这些公司过去三年的产品成功完全建立在自回归 LLM 之上,scaling laws 的实证规律也明显支持”再加 10 倍数据加 10 倍算力还能涨”。Sam Altman、Dario Amodei、Demis Hassabis 在公开发言里都把”scaling+算法微调”视作未来 5 年的主线,世界模型是一个可选项而不是必选项。LeCun 在演讲第 41 分钟直接点了这几位的名,称他们”为了股价讲故事,明知道前方撞墙还在催油门”——这是相当尖锐的指控,演讲一上线 OpenAI 政策研究主管 Miles Brundage 就在 X 上回应:”Yann 把战略选择当成道德问题谈,这不是科学讨论的姿态。”
反对者指出 JEPA 至今为止的实验都还在小规模任务上,最大的 V-JEPA 只有 632M 参数,没有任何证据它能扩展到 GPT-5 量级的通用能力。NYU 的 Sam Bowman 在 X 上写:”JEPA 在受限基准上漂亮,但 LLM 在开放任务上的可用性是 JEPA 短期内拿不出来的——LeCun 的论证是技术上对的,但战略上把节奏算错了 2 到 3 年。”
2026 年 AI 学界的两条路
这段演讲在 X 和 Hacker News 上都引发了大讨论。支持者赞同 LeCun 的物理直觉论证——同样从图灵奖得主里挑站队,Yoshua Bengio 在转发时写了一句”Yann 是对的,LLM 是必要但不充分的台阶”。从研究路线的角度,2026 年的 AI 学界正在被分成两条不一定兼容的路:一条继续把自回归 LLM 推到极致,把 RLHF、long context、tool use 这些技术叠加上去;另一条转向世界模型,赌的是抽象表征空间里的预测能力。两条路对应的资本投入差距巨大——前者今年公开融资超过 2000 亿美元,后者只有 Meta FAIR 和几所学术实验室在认真做。
这场争论的真正意义不是分胜负
LeCun 这次演讲的价值不在于结束争论,而在于把第二条路的技术细节摊开,让更多研究者有机会跟着走。AI 工业界把所有筹码压在自回归 LLM 上的现状是不健康的——任何技术路径都需要至少一条对抗路线作为参考系。即使 JEPA 最终被证明走不通,它逼出来的物理推理基准、抽象表征评测、长程规划任务,也会反向推动自回归阵营把短板补上。真正值得担心的不是 LeCun 是错是对,而是如果整个学界继续把世界模型当成边缘话题,等到 scaling 真的撞墙时,没有任何替代路线已经成熟到能接棒。这次演讲在这个意义上是一次必要的对冲。
参考:YouTube 演讲