多玩家视频生成模型突破双人限制:旋转编码 24 帧实时互动

AI资讯
多玩家视频生成模型多角色互动示意
多角色互动突破双人上限,旋转编码做出 24 帧实时画面

多角色视频生成长期被困在”两个人”的天花板里。新论文把旋转位置编码搬到这条赛道上,作者形容这是「让多角色第一次能在同一帧里自然站位」,相比此前的双人方案,画面连贯度和算力开销都有明显改善,多人互动也终于不再糊成一团。这个突破对内容创作和游戏行业都是直接利好。

旋转编码把算力开销压到可实时跑的水平

过去多角色视频生成依赖全局注意力,角色一多算力就指数级膨胀,所以业界普遍只敢做两个角色。新方法把旋转位置编码引入多角色注意力,每个角色拿到独立位置签名,注意力权重不再爆炸。模型生成速度做到 24 帧每秒,足以支持实时互动场景,相对此前同等画质方案的算力消耗下降幅度接近一半。在 8 GPU 集群上,新方案能稳定支撑 6 角色场景的实时生成,旧方案在同等硬件下只能勉强跑 2 角色。

多角色互动画面更连贯,肢体冲突少了

除了帧率,团队还重点测了多角色互动的连贯性。在 6 角色及以上的复杂场景中,新方法的肢体穿模率显著降低,角色之间的视线对齐和动作呼应也更自然。论文给出的对比视频里,4 人对话、街头多人场景、群体舞蹈这些高难度任务都能稳定输出,不再像旧方案那样动不动就把脸糊掉。研究者还专门测了”角色身份保持”指标,连续 10 秒视频中,新方法的身份漂移率低于 3%,这是过去多人视频生成最容易翻车的位置。

多角色视频生成正在走出实验室阶段

角色数量是这条线上最硬的限制。一旦突破双人天花板,可商用场景立刻打开:互动剧、群演镜头、游戏 NPC 实时演出都能直接受益。旋转位置编码已经在文本和图像端验证过,迁移到视频端的工程成本不算高。后面值得关注的不是技术能不能跑,而是哪家公司先把它包成可调用的视频接口推到市场上,把多人视频从演示视频变成真实业务工具。短视频和直播行业对这种能力的吸纳速度通常很快,6 个月内出现首批商用产品并不夸张。


参考:arXiv 视频生成研究