李飞飞世界实验室报喜

AI资讯

World Jam 把 World Labs 的产品线串了起来

李飞飞在 5 月 21 日的 X 上发了一条带视频的帖子,主题是 World Labs 主办的 World Jam 大赛获奖作品集。视频里出现的是一组完全由 AI 生成的可交互三维场景——一个像被时间冻结的博物馆、一片漂浮的群岛、一个能从早晨走到深夜的城市街区——观众可以用浏览器直接进去转动视角。这是 World Labs 公司创立两年以来第一次正式把空间智能从研究里推到面向普通用户的产品端。

World Labs World Jam 获奖作品集合截图
World Jam 入围作品都跑在 Marble 1.1 上,可在浏览器里自由游览

三件事一起发生

这次发布有三层信息密度。第一层是 World Jam 比赛本身,World Labs 在 4 月底向社区开放报名,最终收到 6200 份提交,覆盖 47 个国家,5 月 21 日揭晓的 12 个获奖作品里有 4 个来自亚洲——其中”昆仑山地剧场”的作者是国内独立艺术家与一位算法工程师的组合。第二层是底层模型 Marble 1.1 同步升级——单场景生成的高斯泼溅点数从上一代的 1500 万级别推到 5000 万级别,意味着场景细节大致是上一代的 3 倍多;同时支持时间维度,一个场景可以包含晨昏变化和动态光影。第三层是配套的渲染引擎 Spark LoD 2.0 开源,让低端 GPU(RTX 3050 这一档)也能流畅跑生成的场景——这是把研究成果交到普通开发者手里的关键工程动作。

李飞飞自己在视频文案里写得克制:”这些作品没有一个是用我们内部团队做的,全部来自社区。”World Labs 的联合创始人 Justin Johnson(前 Meta AI 研究员,CV 圈资深研究者)在转发里加了一段更具体的说明:”我们想验证的事情是,给定一个足够强的世界生成模型,普通创作者能不能在没有 3D 建模背景的情况下做出有创造力的空间——目前看至少 12 件作品已经回答了这个问题。”

三维生成走到普通创作者手里的难度

World Labs 这家公司从开局就被押在一个判断上——三维世界生成是下一个语言模型量级的赛道。过去两年它的对手有 Google 的 Genie、Meta 的 SceneScape、北大的 GaussianAnything,但这些项目要么停在论文阶段,要么生成结果只够拍 demo 视频。Marble 第一次让生成的场景”可以让陌生用户进去乱逛半小时不出戏”。这是产品体验和研究 prototype 之间的真正分界线。

但短板还很明显。从公开 demo 看,Marble 1.1 在物理合理性上仍有问题:物体的重量和支撑关系会被忽略,不能交互的元素较多——你能在场景里走,但不能拿起一杯水。这跟语言模型早期 GPT-3 时代的处境像:能写流畅的句子但写不出逻辑严密的长篇。空间智能要变成产品级的元宇宙基础设施,至少还要再翻一两代。投资界对此态度明确,World Labs 的 a16z 合伙人 Martin Casado 在一次播客里说过:”这不是 12 个月内能落地的赛道,是 36 到 48 个月——但一旦跑通,影响范围比 LLM 大一个量级。”

从论文到能玩的东西,李飞飞这次给出了证据

李飞飞从 2024 年初宣布 World Labs 至今,外界对她和团队的最大质疑一直是”概念听上去很大,看不到落地”。这次 World Jam 的发布回应了这个质疑——不是发论文,不是放 demo 视频,而是一组陌生人能直接打开链接进去游览的作品。这件事把空间智能从一个学术口号变成了一个能被普通用户验证的东西。技术拐点离消费级还远,但看见有创作者用它做出风格化的成品,整个赛道就值得再花三年去看。


参考链接: