
香港大学团队把多智能体视频生成工具 ViMax 推到了 GitHub。项目说明文档的开头写得挺直白:输入一句话,输出脚本、字幕和成片。背后跑的不是单一模型,而是一组分工明确的 agent。
一句话进去,五个 agent 接力
ViMax 的工作流被拆成五个角色:编剧 agent 负责把用户提示词扩成完整脚本,分镜 agent 把脚本切成 6 至 12 个镜头,画面 agent 调用视频生成模型出片段,配音 agent 生成多语种语音,剪辑 agent 把素材拼接并加字幕。仓库 demo 里跑了一条电商带货脚本,从输入”推荐一款无线耳机”到拿到 45 秒成片,全流程耗时约 7 分钟,单条成片调用成本控制在 1.2 美元以内。项目支持中英双语,模型侧默认接的是开源视频生成模型,团队也提供了商业模型的可插拔配置。
跨境电商已经在用它批量做带货
ViMax 上线后,X 平台上有跨境电商团队晒出落地数据:同一款商品过去靠人工剪辑师每天产出 8 到 12 条短视频,接入 ViMax 后单天产能拉到 60 条以上,合规审查环节也可以让 agent 先做初筛。项目维护者在 issue 区强调过一点:工具默认会在生成的视频中嵌入”AI 生成”水印,这是为了配合各大平台的合规要求,团队不打算把这个开关做成可关闭项。这种克制反倒让一些电商团队觉得放心,因为平台合规风险被前置处理了。
多 agent 协作让视频量产成立,但内容同质化的代价随之而来
从 8 条到 60 条的产能跳跃听起来很吸引人,但同一组 agent 跑出来的成片,节奏和镜头语言会高度相似。短期内电商团队可以靠产能优势抢流量,时间一长平台算法就会开始压同质内容的曝光。ViMax 真正解决的是低端短视频的供给问题,对那些靠创意和人格化打动观众的内容形态,这种工具的边际价值反而很有限。把它当流水线工具用,别当创作工具用。