字节跳动开源多模态视频生成模型Bernini-R

AI资讯

一个模型搞定视频生成和编辑:Bernini-R的开源野心

字节跳动在6月1日开源了Bernini-R,这是一个多模态视频生成和编辑模型,基于DiT架构,采用Apache 2.0许可证。Bernini-R不是单纯的视频生成器——它将一个基于多模态大语言模型(MLLM)的语义规划器与DiT渲染器结合在一起,支持从文本到视频、图片到视频、视频到视频、以及深度视频编辑等多种任务。

ByteDance Bernini-R多模态视频生成模型
Bernini-R:MLLM语义规划器+DiT渲染器的统一视频生成与编辑框架

模型名称中的”R”代表Renderer,即渲染器部分。论文全称是”Latent Semantic Planning for Video Diffusion”(潜在语义规划用于视频扩散),核心思路是在扩散过程之前先让MLLM理解语义意图,规划好编辑或生成的方向,再由DiT渲染器执行。这种”先理解、再生成”的两阶段设计,使得Bernini-R在视频编辑场景中表现突出。

硬件要求方面,单GPU推理推荐NVIDIA H100/H800/H200(以启用FlashAttention-3加速),最低支持A100/A800(回退到FlashAttention-2)。视频任务(如文本到视频、视频到视频)建议8卡并行,使用Ulysses序列并行策略。推理代码和模型权重均在Hugging Face和GitHub上公开。

视频编辑排行第一梯队,对标闭源商业模型

字节跳动公布了一组来自自建盲评平台的测试结果。在该平台上,人类标注者对成对编辑结果进行盲评投票,汇总为Bradley-Terry评分。根据字节的说法,Bernini-R在视频编辑领域达到了与领先闭源商业模型并列的第一梯队水平。

具体支持的任务类型包括:文本生成图片(t2i)、图片编辑(i2i)、文本生成视频(t2v)、视频编辑(v2v,其中又分保持主体运动的常规编辑和改变主体运动的高级编辑)、参考图引导的视频编辑(rv2v)、以及参考图生成视频(r2v)。默认输出分辨率为480p/16fps,最高支持720p/24fps。

项目核心贡献者包括刘晨晨、陈俊逸、李磊、迟璐、孙明震、李卓莹等,由袁泽欢担任通讯作者,迟璐担任项目负责人。论文于2026年5月22日发布在arXiv上(编号2605.22344)。

开源视频模型的实际竞争力取决于配套工具而非跑分

Bernini-R的技术方案是扎实的。MLLM语义规划器的引入解决了视频编辑中长期存在的一个问题:模型不知道自己要改什么。传统的inpainting方法在图像层面表现不错,但扩展到视频时经常出现时序不一致。Bernini-R先让大语言模型理解编辑意图、规划语义层面的变化,再由DiT渲染器忠实执行,这条路径在架构上比纯扩散模型更合理。

但开源视频生成模型面临的挑战不在模型本身,而在周边工具链。Runway、Pika、Kling等闭源产品已经建立了完整的用户界面、工作流集成和内容审核体系。Bernini-R需要8张H100才能流畅运行视频任务,这个门槛把绝大多数个人创作者挡在了门外。即使对研究团队来说,从模型权重到可用产品的距离也远非一行pip install能跨越。

Apache 2.0许可证是一个加分项——它允许商用且几乎没有限制,比很多”开源”但实际附加使用条款的模型要干净得多。字节跳动在Hugging Face上同时提供了diffusers格式的即用权重(Bernini-R-Diffusers),降低了上手难度。如果社区能够围绕它构建出易用的前端工具,Bernini-R有机会成为视频生成领域的基础设施级项目。


参考链接: