谷歌Omni视频生成宝可梦卡片文字清晰可辨

一段来自用户 @kimmonismus 的推文迅速引发关注——Google Omni 模型基于一张宝可梦卡片生成了连贯的视频片段，关键亮点在于：卡片上的文字在每一帧都保持清晰可读，没有出现常见视频生成模型中文字扭曲或闪烁的问题。

I just watched the clip @arrakis_ai created and I’m really impressed with Google’s Omni. You can pause the clip at any frame and the text on the Pokemon card remains perfectly legible and unaltered. The consistency and continuity are next level.

— Chubby (@kimmonismus), 2026 年 5 月 27 日

Google Omni 视频生成效果 — Google Omni 生成的视频中，宝可梦卡片文字在每帧保持清晰可辨（来源：@kimmonismus）

Gemini Omni 是 Google 在 2026 年 I/O 大会上发布的全模态模型，官方将其描述为”能从任何输入创建任何输出”的系统，首阶段聚焦视频生成。与传统的文生视频模型不同，Omni 同时接受文本、图像、音频和视频作为输入，输出端也能覆盖多种媒体格式。

文字可读性成了视频生成模型的分水岭

AI 视频生成过去一年的瓶颈之一，就是画面中文字内容的稳定性。多数模型在处理包含文字的场景时，会出现笔画模糊、字母变形、单词闪烁等问题。宝可梦卡片样例之所以引发热议，正是因为它在快节奏的视频中保持了卡片上细小文字的像素级清晰——这在同类模型中尚属罕见。目前 Gemini Omni Flash 已逐步开放使用，更多第三方实测样例正在社交平台持续涌现。

参考：网友演示

谷歌Omni视频生成效果惊艳网友

文字可读性成了视频生成模型的分水岭

相关推荐