NEWTON 框架显著提升视频生成准确率

AI资讯

视频生成模型违反物理常识的问题,被一篇新论文拿来当作核心目标。NEWTON 是一套把扩散视频生成改写成”智能体调用工具”形式的框架,作者声称在自家测试集上把物理违规率从基线的 38.4% 降到了 12.1%。这个数字不算夸张,但思路上跳出了过去一年大家在视频模型里反复堆 transformer 参数的套路。

NEWTON 框架架构示意图
NEWTON 把视频生成拆解为多个智能体协同调用物理引擎、约束求解器和扩散模型

把扩散过程变成调度问题

作者把生成过程切成两层。上层是一个规划智能体,根据文本提示拆解出”物体清单 + 物理状态 + 时序事件”,下层是一组工具:刚体仿真器、布料解算、摄像机轨迹、再加上一个负责把潜空间噪声去掉的扩散主干。规划智能体每若干帧调用一次工具集,把仿真结果作为条件喂给扩散模型,相当于让扩散模型”知道”下一帧物体应该在哪。

这个设计的核心代价是延迟。论文里给出的数据是单段 5 秒视频生成耗时约 47 秒,比 Sora 同等分辨率慢 1.8 倍左右。但物理违规率上的优势在他们自建的 PhysBench-Vid 基准上确实存在:刚体穿透从 22% 降到 6%,物体凭空消失从 11% 降到 3%,重力反向从 5% 降到 1.2%。

仿真先验有边界

这套”先仿真再生成”的路子,过去几年其实被多个团队尝试过。Meta 的 V-JEPA、英伟达的 Cosmos 都有类似的世界模型组件,但很少把仿真器直接嵌进推理路径。NEWTON 的做法在结构上更像把游戏引擎当成扩散模型的辅助器官。

问题在于仿真器能覆盖的物理场景有限。论文作者在限制章节里直白承认:流体、烟雾、软体形变这些场景,他们的仿真组件支持得不好,所以这部分场景的违规率改善只有 5 个百分点左右,远不及刚体场景。

评价这种工作的关键不是看跑分,而是看推广面。卡内基梅隆大学计算机系副教授 Deva Ramanan 长期做视觉与物理结合方向的研究,他在多篇综述里强调过:视频生成模型如果要真正进入工业管线,需要的不是更高的 FVD 分数,而是”用户可以指定某个物体严格服从某条物理规则”。NEWTON 在这一点上提供了接口——用户可以在提示里挂上”球必须遵守抛物线”这样的硬约束,规划智能体会把它转给仿真器。这个交互形态,比单纯刷基准更接近内容生产者的需求。

智能体编排是视频生成的下一站

把视频生成改写成”智能体 + 工具集”,并不是 NEWTON 一家在做,但他们提供了一份相对干净的消融实验。把规划智能体换成一个固定流水线,违规率会回弹到 28%;把仿真器换成纯学习版本的世界模型,违规率回到 21%。这两组对比说明真正起作用的是”显式调用确定性工具”这一步,而不是 transformer 自己学出来的物理直觉。

更现实的判断是:纯端到端的视频扩散模型在物理一致性上短期内很难追上”嵌入仿真器”的路线。代价是工程链路变长、延迟变高、可控性更依赖工具链的完备度。但这正是视频生成走向工业管线时必须付的成本。NEWTON 这篇论文的价值,不在那几个百分点的违规率下降,而在于把”视频生成应该长成什么样”这件事,往多智能体协同的方向又推了一步。


参考链接: