多参考潜空间生图技术获新进展

AI资讯

Reddit 上的 r/FluxAI 子版块里,一组叫 multi-reference latent 的工作流被顶到了周榜前列。原帖作者把它的核心动作描述得很简单:在 ComfyUI 里堆叠多个参考图节点,让它们的潜空间表示在去噪过程中按不同权重融合,画风、构图、服饰可以分别绑定到不同参考图上。看起来又是一次社区自发的玩法迭代,但它背后牵到的问题比工作流本身更值得讲。

ComfyUI 多参考潜空间节点工作流
多张参考图在潜空间被分层加权融合的节点连接示意。

把多张参考图拆成可独立调权的潜变量

过去半年 Flux 模型上的图像参考玩法主要靠 IP-Adapter 和 Redux:单张参考图,整体迁移。社区想做”画风来自 A、构图来自 B、服饰来自 C”这种细颗粒控制,往往要靠提示词反复描述,很不稳定。

这次社区分享的方案在节点层做了三件事:把每张参考图独立编码到潜空间,给每个潜变量分配一个层级权重曲线,再让它们在去噪的不同时间步以不同比例参与。早期时间步主要由”构图来源”主导,中段交给”风格来源”,末段细节阶段才让”服饰来源”接管。原帖给出的工作流文件已经被复制超过 2.3k 次,相关讨论楼盖到 400 楼以上。

开源生图圈的真正护城河在工作流层

Black Forest Labs 创始人、Stable Diffusion 一作 Robin Rombach 在过去一年的多次访谈里强调过同一件事:模型权重的差距正在变小,工具链的差距正在变大。他在年初接受 The Information 采访时直言:”Flux 的开源版本能不能赢,不取决于它比 Midjourney 强多少,取决于它周围长出多少别人复制不来的工作流。”

ComfyUI 作者 comfyanonymous 在 GitHub Issue 区的回应更克制。他写道:”我不打算把 multi-reference 这种玩法做成内置节点,社区自己拼出来的东西保留可拆解性,比我封装一个黑盒按钮有价值。”这位作者长期坚持节点级开放,这种态度在闭源工具盛行的当下越来越罕见。

节点拼装会比模型本身先碰到天花板

这种潜空间分层融合的玩法,短期看是 Flux 用户解锁了一种更精细的控制手段,长期看会逼着上游模型层做出反应。商业生图产品如果继续把”参考图”做成单输入按钮,会在专业用户那里加速失血——这部分用户已经习惯了多源、可调权、按时间步分配。

另一个方向上的压力同样真实:节点工作流的复杂度正在逼近普通用户的耐受极限。一张图调出来要连 17 个节点、4 张参考图、3 套权重曲线,这件事本身在筛选用户。社区接下来真正缺的不是更多奇技淫巧的节点拼法,是有人把这一套常用组合做成可复用的”工作流包”格式,让节点级灵活性和模板级易用性能在同一个文件里并存。在那之前,multi-reference latent 这一类分享更像是高阶玩家之间的暗号,而不是普惠工具。


参考:r/FluxAI 原始讨论帖