项目页 rajabi2001.github.io/sega 这两天在生图圈被反复转发。SEGA(Spectral Energy-Guided Attention)给出了一组数字:用 SDXL 这种训练分辨率只有 1024 的模型,不做任何额外微调,直接生成 6144×6144 的图,伪影、重复、肢体错乱这一类高分辨率经典病症明显减少。它没有训练新模型,只动了 RoPE 编码里的一个频段。

1024 的模型为什么撑不到 4K
主流扩散模型在原生分辨率以上做生成,最常见的崩坏方式是”重复”——画面里出现两个头、四只手、三套眼睛。背后原因不是模型不会画,是位置编码外推时频谱能量在高频段崩溃,注意力把远距离 token 当成了重复的近距离 token。
这个问题过去一年的解法主要分两条:一条是 NTK-aware RoPE 这种插值缩放,本质是把高频”压扁”;另一条是分块生成再缝合,比如 MultiDiffusion,靠工程量换效果。两条路都能跑,但前者会损失细节锐度,后者会暴露缝合带。
动 RoPE 的频段而不是步幅
SEGA 的做法换了个角度:它不去缩放 RoPE 的频率,而是直接对每个频段的能量做引导,让那些在原生分辨率下贡献了”局部一致性”的频段在外推时保持能量稳定,让那些贡献了”全局结构”的频段适度放大。整套操作只发生在注意力计算之前的位置编码层,不需要改 UNet 权重,不需要重训。
论文给出的对比包括 SDXL、PixArt-Σ 和 SD3.5。在 4096×4096 输出上,FID 比 NTK-RoPE 改善约 18%;在 6144×6144 这一档,原本崩坏到不可用的 SDXL 直接被拉回到可用区。Twitter 上多个尝试者已经放出复现样本,6K 输出在 RTX 4090 上单图耗时约 90 秒。
新加坡国立大学 NUS Show Lab 负责人 Mike Shou 副教授在 X 上写道:”它真正聪明的地方是把高分辨率外推问题重新定义成了频谱能量守恒问题,这个角度过去几乎没人正面碰过。”他长期做视频生成,对位置编码的痛点很熟。
Stability AI 前研究科学家 Robin Rombach(Stable Diffusion 一作)此前公开表示过,分辨率外推是 SD 系列模型当前最值得啃的硬骨头之一。SEGA 没动模型权重就把这块骨头啃下来一截,正面回应了那段判断。
不微调直接出 6K 的意义在生产侧
对独立创作者,6K 直出意味着海报、画册、巨幕投影这些过去必须靠 ESRGAN 二次放大的场景,可以直接走原生扩散链路,没有放大算法引入的纹理塑料感。对内部部署的中型生图团队,价值更直接:不用为高分辨率单独再训一个模型,省下的算力可以全部放在质量上。
真正值得关注的,是 SEGA 把”外推”这件事从经验调参重新拽回了可分析的频域范畴。这意味着接下来一段时间,会有更多团队尝试把同样的思路迁移到视频生成的时序外推上——视频里那个”长片段角色不一致”的老问题,本质和图像里的”高分辨率重复”是同一类病。一个干净的频域解,能影响的远不止一张 6K 海报。
参考:SEGA 项目主页