多玩家视频生成模型：旋转编码加持，24 帧多角色实时互动

多玩家视频生成模型多角色互动示意 — 多角色互动突破双人上限，旋转编码做出 24 帧实时画面

多角色视频生成长期被困在”两个人”的天花板里。新论文把旋转位置编码搬到这条赛道上，作者形容这是「让多角色第一次能在同一帧里自然站位」，相比此前的双人方案，画面连贯度和算力开销都有明显改善，多人互动也终于不再糊成一团。这个突破对内容创作和游戏行业都是直接利好。

旋转编码把算力开销压到可实时跑的水平

过去多角色视频生成依赖全局注意力，角色一多算力就指数级膨胀，所以业界普遍只敢做两个角色。新方法把旋转位置编码引入多角色注意力，每个角色拿到独立位置签名，注意力权重不再爆炸。模型生成速度做到 24 帧每秒，足以支持实时互动场景，相对此前同等画质方案的算力消耗下降幅度接近一半。在 8 GPU 集群上，新方案能稳定支撑 6 角色场景的实时生成，旧方案在同等硬件下只能勉强跑 2 角色。

多角色互动画面更连贯，肢体冲突少了

除了帧率，团队还重点测了多角色互动的连贯性。在 6 角色及以上的复杂场景中，新方法的肢体穿模率显著降低，角色之间的视线对齐和动作呼应也更自然。论文给出的对比视频里，4 人对话、街头多人场景、群体舞蹈这些高难度任务都能稳定输出，不再像旧方案那样动不动就把脸糊掉。研究者还专门测了”角色身份保持”指标，连续 10 秒视频中，新方法的身份漂移率低于 3%，这是过去多人视频生成最容易翻车的位置。

多角色视频生成正在走出实验室阶段

角色数量是这条线上最硬的限制。一旦突破双人天花板，可商用场景立刻打开：互动剧、群演镜头、游戏 NPC 实时演出都能直接受益。旋转位置编码已经在文本和图像端验证过，迁移到视频端的工程成本不算高。后面值得关注的不是技术能不能跑，而是哪家公司先把它包成可调用的视频接口推到市场上，把多人视频从演示视频变成真实业务工具。短视频和直播行业对这种能力的吸纳速度通常很快，6 个月内出现首批商用产品并不夸张。

参考：arXiv 视频生成研究

多玩家视频生成模型突破双人限制：旋转编码 24 帧实时互动

旋转编码把算力开销压到可实时跑的水平

多角色互动画面更连贯，肢体冲突少了

多角色视频生成正在走出实验室阶段

相关推荐