字节跳动开源视频模型Bernini-R 文本图片生成视频

一个模型搞定视频生成和编辑：Bernini-R的开源野心

字节跳动在6月1日开源了Bernini-R，这是一个多模态视频生成和编辑模型，基于DiT架构，采用Apache 2.0许可证。Bernini-R不是单纯的视频生成器——它将一个基于多模态大语言模型（MLLM）的语义规划器与DiT渲染器结合在一起，支持从文本到视频、图片到视频、视频到视频、以及深度视频编辑等多种任务。

ByteDance Bernini-R多模态视频生成模型 — Bernini-R：MLLM语义规划器+DiT渲染器的统一视频生成与编辑框架

模型名称中的”R”代表Renderer，即渲染器部分。论文全称是”Latent Semantic Planning for Video Diffusion”（潜在语义规划用于视频扩散），核心思路是在扩散过程之前先让MLLM理解语义意图，规划好编辑或生成的方向，再由DiT渲染器执行。这种”先理解、再生成”的两阶段设计，使得Bernini-R在视频编辑场景中表现突出。

硬件要求方面，单GPU推理推荐NVIDIA H100/H800/H200（以启用FlashAttention-3加速），最低支持A100/A800（回退到FlashAttention-2）。视频任务（如文本到视频、视频到视频）建议8卡并行，使用Ulysses序列并行策略。推理代码和模型权重均在Hugging Face和GitHub上公开。

视频编辑排行第一梯队，对标闭源商业模型

字节跳动公布了一组来自自建盲评平台的测试结果。在该平台上，人类标注者对成对编辑结果进行盲评投票，汇总为Bradley-Terry评分。根据字节的说法，Bernini-R在视频编辑领域达到了与领先闭源商业模型并列的第一梯队水平。

具体支持的任务类型包括：文本生成图片（t2i）、图片编辑（i2i）、文本生成视频（t2v）、视频编辑（v2v，其中又分保持主体运动的常规编辑和改变主体运动的高级编辑）、参考图引导的视频编辑（rv2v）、以及参考图生成视频（r2v）。默认输出分辨率为480p/16fps，最高支持720p/24fps。

项目核心贡献者包括刘晨晨、陈俊逸、李磊、迟璐、孙明震、李卓莹等，由袁泽欢担任通讯作者，迟璐担任项目负责人。论文于2026年5月22日发布在arXiv上（编号2605.22344）。

开源视频模型的实际竞争力取决于配套工具而非跑分

Bernini-R的技术方案是扎实的。MLLM语义规划器的引入解决了视频编辑中长期存在的一个问题：模型不知道自己要改什么。传统的inpainting方法在图像层面表现不错，但扩展到视频时经常出现时序不一致。Bernini-R先让大语言模型理解编辑意图、规划语义层面的变化，再由DiT渲染器忠实执行，这条路径在架构上比纯扩散模型更合理。

但开源视频生成模型面临的挑战不在模型本身，而在周边工具链。Runway、Pika、Kling等闭源产品已经建立了完整的用户界面、工作流集成和内容审核体系。Bernini-R需要8张H100才能流畅运行视频任务，这个门槛把绝大多数个人创作者挡在了门外。即使对研究团队来说，从模型权重到可用产品的距离也远非一行pip install能跨越。

Apache 2.0许可证是一个加分项——它允许商用且几乎没有限制，比很多”开源”但实际附加使用条款的模型要干净得多。字节跳动在Hugging Face上同时提供了diffusers格式的即用权重（Bernini-R-Diffusers），降低了上手难度。如果社区能够围绕它构建出易用的前端工具，Bernini-R有机会成为视频生成领域的基础设施级项目。

参考链接：

字节跳动开源多模态视频生成模型Bernini-R

一个模型搞定视频生成和编辑：Bernini-R的开源野心

视频编辑排行第一梯队，对标闭源商业模型

开源视频模型的实际竞争力取决于配套工具而非跑分

相关推荐