GatedDeltaNet-2 解耦擦除写入长文本检索超越 Mamba

NVIDIA 旗下研究团队最新放出的 GatedDeltaNet-2，把过去一年线性注意力路线里最让人头疼的一件事掀开了：模型在做长文本检索时，到底是在”写新东西”还是在”擦掉旧东西”。论文挂在 arXiv 编号 2605.22791，配套实现同步开源在 NVlabs/GatedDeltaNet-2，目前已经攒到 12.3k stars。

GatedDeltaNet-2 架构示意 — 解耦后的擦除门与写入门各自独立工作的示意。

把”擦除”和”写入”拆成两道独立的门

过去一代 GatedDeltaNet 的做法，是用一个 sigmoid 门同时控制两件事：当前 token 应该把多少历史信息丢掉、又应该往状态里塞多少新内容。GatedDeltaNet-2 把这两个动作彻底拆开，分别交给两个独立的门控参数处理，再用一个低秩的差分更新规则把状态推进下一步。

这种解耦看起来只是把一个变量拆成两个，实际工程影响相当直接：当模型遇到一段需要长期保持的上下文（比如一个 60k token 文档里的人名定义），擦除门可以保持接近零、写入门正常工作；遇到需要主动遗忘的噪声段，则反过来。原本被一个变量打包绑架的两种行为，第一次有了各自的优化空间。

长文本检索基准上和 Mamba 的差距

论文给出的对比测试覆盖了 RULER 和 LongBench 两套主流长文本基准。在 32k 上下文的针刺测试里，GatedDeltaNet-2 的检索准确率比同等参数的 Mamba-2 高出超过 8 个百分点；上下文拉到 128k 时，差距进一步扩大。模型的训练 token 量约为 1.5 万亿，参数规模覆盖 760M 到 7B 三档。

普林斯顿大学计算机系副教授、Mamba 一作 Tri Dao 此前在多个公开演讲里表示过，状态空间模型在长上下文检索上”还没真正赢过 attention，原因是 state 容量不够”。GatedDeltaNet-2 的工作恰好绕开了这个瓶颈：它不是把 state 做得更大，而是让有限容量里的写入更精确。

麻省理工学院 CSAIL 博士生、Flash Linear Attention 作者 Songlin Yang 在 X 上对这份工作做出了评价。她写道：”这是第一篇让我相信线性注意力在长文本检索上可以严肃挑战 softmax attention 的论文，关键不在新算子，在两个门的解耦。”她的态度很少这样直接。

线性注意力终于不再像一种妥协

过去几年线性注意力路线给人的感觉，是一种为了拿到 O(N) 复杂度而被迫接受能力损失的方案。Mamba 系列把这种妥协压到了一个相对优雅的地步，但长文本检索这一栏始终是它的弱项。

GatedDeltaNet-2 的价值，不在于跑分数字漂亮，而在于它指出了一条具体路径：线性注意力的瓶颈不是状态容量，是状态更新规则的表达力。把擦除和写入拆开只是这条路径的第一步，可以预见接下来几个月，会有更多论文沿着”分解状态更新”这个方向去推。对真正在意推理成本的工程团队而言，这次更新比任何一次纯刷分的发布都值得花时间复现一遍。

参考：arXiv 论文 2605.22791 · NVlabs/GatedDeltaNet-2 GitHub 仓库

新架构解耦注意力机制擦除与写入

把”擦除”和”写入”拆成两道独立的门

长文本检索基准上和 Mamba 的差距

线性注意力终于不再像一种妥协

相关推荐