港大开源 ViMax：多智能体一句话产出短视频脚本与成片

多智能体视频生成工具的工作流示意截图 — 从一句提示词到成片，多个 agent 在背后接力

香港大学团队把多智能体视频生成工具 ViMax 推到了 GitHub。项目说明文档的开头写得挺直白：输入一句话，输出脚本、字幕和成片。背后跑的不是单一模型，而是一组分工明确的 agent。

一句话进去，五个 agent 接力

ViMax 的工作流被拆成五个角色：编剧 agent 负责把用户提示词扩成完整脚本，分镜 agent 把脚本切成 6 至 12 个镜头，画面 agent 调用视频生成模型出片段，配音 agent 生成多语种语音，剪辑 agent 把素材拼接并加字幕。仓库 demo 里跑了一条电商带货脚本，从输入”推荐一款无线耳机”到拿到 45 秒成片，全流程耗时约 7 分钟，单条成片调用成本控制在 1.2 美元以内。项目支持中英双语，模型侧默认接的是开源视频生成模型，团队也提供了商业模型的可插拔配置。

跨境电商已经在用它批量做带货

ViMax 上线后，X 平台上有跨境电商团队晒出落地数据：同一款商品过去靠人工剪辑师每天产出 8 到 12 条短视频，接入 ViMax 后单天产能拉到 60 条以上，合规审查环节也可以让 agent 先做初筛。项目维护者在 issue 区强调过一点：工具默认会在生成的视频中嵌入”AI 生成”水印，这是为了配合各大平台的合规要求，团队不打算把这个开关做成可关闭项。这种克制反倒让一些电商团队觉得放心，因为平台合规风险被前置处理了。

多 agent 协作让视频量产成立，但内容同质化的代价随之而来

从 8 条到 60 条的产能跳跃听起来很吸引人，但同一组 agent 跑出来的成片，节奏和镜头语言会高度相似。短期内电商团队可以靠产能优势抢流量，时间一长平台算法就会开始压同质内容的曝光。ViMax 真正解决的是低端短视频的供给问题，对那些靠创意和人格化打动观众的内容形态，这种工具的边际价值反而很有限。把它当流水线工具用，别当创作工具用。

参考：ViMax GitHub 项目

港大开源多智能体视频神器 ViMax：一句话出片

一句话进去，五个 agent 接力

跨境电商已经在用它批量做带货

多 agent 协作让视频量产成立，但内容同质化的代价随之而来

相关推荐