OpenArt 上线单图转 3D 空间的新功能,用户上传一张静态画面,平台用前端的相机控件就能在生成出来的三维场景里推拉摇移、切机位,画面中的人物和道具在不同视角下保持一致。功能由 Stanford 教授、World Labs 联合创始人李飞飞(Fei-Fei Li)在 X 上首发推介,最新创意发布给出的演示视频里同一场静物在 6 个机位间切换无穿帮。

- 输入一张 2D 静态图,平台输出可自由旋转的三维场景,无需建模或 NeRF 训练
- 提供 6 个预设镜头:环绕、推近、拉远、轨道、第一人称行走、俯视;也可自定义路径关键帧
- 同一场景的「永久虚拟置景」一旦生成,多次出图机位不同也保持物体位置和材质一致
- 当前限制:场景边界外推距离约 5 米,远景细节会模糊
真正的影响是把「连续镜头」交还给非专业创作者
以前一个独立动画师要做镜头切换,要么真做 3D 建模、要么靠多次出图加补帧——每一种都要求专业技能或大量计算。OpenArt 这个功能把链路压成「一张图 + 拖动鼠标」,意味着分镜师不需要再为了试一个角度去重新跑一轮文生图。李飞飞长期推的「空间智能是 AI 的下一个前沿」(Spatial intelligence is the next frontier in AI)——她在 2024 年 TED 演讲与 World Labs 公开信里反复表述——本质就是要让模型理解 3D 结构而不是生成像素,OpenArt 这次把这套思路落到消费级工具上。
需要观察的是镜头一致性能撑多远
单图转 3D 的天花板取决于隐含几何重建的精度,演示视频里的近景一致性看起来稳,但当机位拉到原图视野之外,模型本质上是在 hallucinate 没看见的部分。在静物场景里这种「合理猜测」可以接受,到了人物动作和复杂室内场景,错位和飘逸会立刻暴露。OpenArt 这次没有公开技术报告,只放了产品视频,外推 5 米的限制很可能就是当前重建质量的边界。等 8K 用户开始把它往叙事短片上塞的时候,这条边界会被很快测出来。
参考链接