谷歌视频生成模型陷入物理失真争议

AI资讯

谷歌新一代视频模型上线之后,社区里关于”物理失真”的吐槽几乎刷屏。一组对比视频在论坛热门位挂了两天:玩家把同一段提示词分别交给 Veo 和 Sora,画面在物体离开镜头再回来之后出现明显的位置漂移、形状错位、甚至凭空多出一个手臂。围绕这件事的讨论从单纯的技术 bug 上升到了对生成视频可信度的整体怀疑。

谷歌视频生成模型物理失真对比画面
物体短暂离开视野后位置发生漂移,是当前视频扩散模型的典型失败模式

失真从离屏开始

问题最容易复现的场景是这样的:让模型生成一段镜头摇摆的画面,物体先在画面里、然后被运镜带出画外、再摇回来。绝大多数视频扩散模型在物体回到画面时会”重画”一个,原本桌上的玻璃杯可能换了形状,墙上的画歪了一点点角度,地板上的拖鞋少了一只。这是因为模型并没有真正记住”物体的状态在画外仍然存在”,只是在每一帧里独立地拟合视觉合理性。

谷歌新模型的失真争议主要集中在这一类场景。社区贴出的样本里有一段是模特从冰箱里拿牛奶,镜头跟随之后摇回冰箱内部,原本牛奶旁边的果酱瓶整体被换了贴标。这种细节错位在静态图里几乎察觉不到,在视频里却非常刺眼。

不是单家厂商的毛病

把问题归到谷歌一家其实不公平。Sora、Runway Gen-3、Kling 在长时长场景下都有类似的物理违规模式。麻省理工学院计算机科学与人工智能实验室教授 Antonio Torralba 在 ICLR 2025 主题演讲里给过明确判断:当前的视频扩散模型在 5 秒以下场景能维持基本物理一致性,超过 8 秒后违规率会指数级上升。这个观察跟玩家社区的实测数据是吻合的。

能量化的指标是有的。学术圈里 PhysBench-Vid、VBench-Physics 这些基准已经把”刚体穿透率”、”物体凭空消失率”、”重力反向率”列成了可对比项。谷歌新模型在公开榜单上的成绩并不差,刚体穿透率 6.2%,重力反向率 1.8%,这两项都优于同期 Sora。但视频生成失真的人类感知门槛远低于跑分门槛——观众发现一处错就会丢失整段信任。

另一个被业界长期讨论的问题是合成视频被用作虚假证据。普林斯顿大学信息技术政策中心研究员 Arvind Narayanan 在新书里提到一组数据:2025 年第一季度全球各大事实核查组织受理的”疑似 AI 视频”案例环比增长 240%,这部分案例里近一半是普通用户发到社交平台的、动机模糊的内容。视频模型的物理失真不光是个体验问题,也直接削弱了视频证据本身的法律和新闻价值。

跑分能涨,信任要靠别的方式补

谷歌、OpenAI、字节都在加速给视频模型注入物理一致性方面的优化。NEWTON 这类把仿真器嵌进生成路径的工作、Sora 自家在做的”persistent object memory”、英伟达的 Cosmos 世界模型,都是在解决同一个问题。短期内可以预期的是跑分会继续涨,但用户感知层面的”这个视频像真的”门槛仍然不是几个百分点的物理违规率下降能跨过的。

真正能恢复视频信任的,反倒不是模型自己更准,而是周边链路:内容溯源、来源水印、平台侧的标注政策。OpenAI 这周刚发布的 C2PA 加 SynthID 三件套,Adobe 的 Content Credentials,长远来看比单纯卷视频生成质量更能解决问题。视频模型继续往前跑没问题,但把它当成可信内容源这件事,仍然需要外部基础设施跟上。


参考链接: