Grok 视频模型实测:提示词服从性险胜 Seedance
xAI 在视频生成领域的追赶速度快得让人不敢轻视。Grok 视频模型最新预览版在第三方评测中展现了大幅提升的提示词服从性——在多个标准化测试场景中,其生成的视频内容与用户提示词的一致率达到了 82%,以 4 个百分点的微弱优势超越了 Seedance 2 的 78%。虽然差距不大,但对于一个起步晚于对手大半年的模型来说,这个进步速度值得关注。
- 预览版更新后提示词服从性得分 82%,超越 Seedance 2 的 78%
- 支持最长 15 秒的视频片段生成,较初版预览的 8 秒大幅提升
- 多模态理解能力增强,能处理包含 3 个以上物体的复杂场景描述
- 生成速度较初版预览提升约 30%,单段 5 秒视频在 NVIDIA GPU 集群上约 40 秒完成
Grok 视频模型正在快速缩小与第一梯队的差距
埃隆·马斯克在 X 平台透露,Grok 视频模型的训练数据量是初版的三倍,加入了大量带有动作标注的视频素材,这让模型对”从左向右跑””缓慢下蹲””快速转身”这类指令的理解准确度明显改善。xAI 技术博客中介绍,团队在训练中引入了强化学习反馈环节,对提示词与生成内容的一致性做了专门优化,这是服从性得分提升的主要原因。

提示词服从性领先不等于整体体验胜出
“听指令”只是视频生成模型的一项基本功。在实际使用中,用户更关心的是画面质量、动作自然感、多主体一致性等综合体验。Grok 在提示词服从性上的进步值得肯定,但单独提这个指标有取巧之嫌——在画面细节丰富度和动作自然程度上,Seedance 2 仍然占有明显优势。xAI 需要证明的不只是一项指标领先,而是整个产品体验的可持续提升。多模态视频赛道的竞争已经进入拼执行力的阶段,单点突破很难建立长期壁垒。