CapCut 把 Gemini 嵌进了对话剪辑栏
谷歌和字节跳动旗下海外短视频剪辑工具 CapCut(剪映海外版)在 5 月 22 日联合公告了一项深度集成:用户可以在 CapCut 应用内的对话框里直接调用 Gemini 修改视频片段。技术博主 op7418 在 X 上的体验贴里写:”输入’把第 12 秒的转场换成左滑、加一段冷色调调色’就能直接执行,不必再翻菜单。”这是 Gemini 第一次以”剪辑指令解释器”的角色直接接进主流视频工具。

这件事对 Adobe 和 Runway 都是压力
过去一年视频 AI 的两条主线是 Runway、Pika 这种纯生成式工具,和 Adobe Premiere、达芬奇这种把 AI 当 plugin 的传统剪辑栈。CapCut 这次把 Gemini 直接嵌进对话栏,跳过插件市场、跳过素材生成,做的是日常剪辑的工序级替代。CapCut 全球月活在 5 月初公布的数据里超过 4 亿,是 Premiere Pro 的几十倍量级。这意味着接下来三个月,会有数千万用户第一次在剪辑流程里习惯”打字改视频”的交互。Google DeepMind 产品总监 Eli Collins 在转发贴文里点出了战略意图:”Gemini 要做的不是又一个生成模型,是连进真实工作流的解释器。”
真正稀缺的是动词级别的剪辑指令理解
看起来这只是一次集成公告,技术上的难点在 Gemini 必须把”转场换成左滑””加一段冷色调”这类自然语言精确映射到 CapCut 的具体 API 调用——剪辑栈里有几百个参数槽。op7418 在体验帖里给的具体测试是 28 条复杂指令里 21 条一次到位,5 条需要追问澄清,2 条直接失败,约 75% 的一次成功率。对自然语言驱动的剪辑这是可用门槛,对工程链路意味着 Gemini 团队这一年在 tool calling 的稳定性上做了实在工作。生成模型擅长无中生有,剪辑工作流要的恰好相反——精确执行已知动作。这才是 Google 把 Gemini 接进 CapCut 真正想验证的能力。
参考链接:CapCut 与 Gemini 集成体验