NVIDIA 旗下研究团队最新放出的 GatedDeltaNet-2,把过去一年线性注意力路线里最让人头疼的一件事掀开了:模型在做长文本检索时,到底是在”写新东西”还是在”擦掉旧东西”。论文挂在 arXiv 编号 2605.22791,配套实现同步开源在 NVlabs/GatedDeltaNet-2,目前已经攒到 12.3k stars。

把”擦除”和”写入”拆成两道独立的门
过去一代 GatedDeltaNet 的做法,是用一个 sigmoid 门同时控制两件事:当前 token 应该把多少历史信息丢掉、又应该往状态里塞多少新内容。GatedDeltaNet-2 把这两个动作彻底拆开,分别交给两个独立的门控参数处理,再用一个低秩的差分更新规则把状态推进下一步。
这种解耦看起来只是把一个变量拆成两个,实际工程影响相当直接:当模型遇到一段需要长期保持的上下文(比如一个 60k token 文档里的人名定义),擦除门可以保持接近零、写入门正常工作;遇到需要主动遗忘的噪声段,则反过来。原本被一个变量打包绑架的两种行为,第一次有了各自的优化空间。
长文本检索基准上和 Mamba 的差距
论文给出的对比测试覆盖了 RULER 和 LongBench 两套主流长文本基准。在 32k 上下文的针刺测试里,GatedDeltaNet-2 的检索准确率比同等参数的 Mamba-2 高出超过 8 个百分点;上下文拉到 128k 时,差距进一步扩大。模型的训练 token 量约为 1.5 万亿,参数规模覆盖 760M 到 7B 三档。
普林斯顿大学计算机系副教授、Mamba 一作 Tri Dao 此前在多个公开演讲里表示过,状态空间模型在长上下文检索上”还没真正赢过 attention,原因是 state 容量不够”。GatedDeltaNet-2 的工作恰好绕开了这个瓶颈:它不是把 state 做得更大,而是让有限容量里的写入更精确。
麻省理工学院 CSAIL 博士生、Flash Linear Attention 作者 Songlin Yang 在 X 上对这份工作做出了评价。她写道:”这是第一篇让我相信线性注意力在长文本检索上可以严肃挑战 softmax attention 的论文,关键不在新算子,在两个门的解耦。”她的态度很少这样直接。
线性注意力终于不再像一种妥协
过去几年线性注意力路线给人的感觉,是一种为了拿到 O(N) 复杂度而被迫接受能力损失的方案。Mamba 系列把这种妥协压到了一个相对优雅的地步,但长文本检索这一栏始终是它的弱项。
GatedDeltaNet-2 的价值,不在于跑分数字漂亮,而在于它指出了一条具体路径:线性注意力的瓶颈不是状态容量,是状态更新规则的表达力。把擦除和写入拆开只是这条路径的第一步,可以预见接下来几个月,会有更多论文沿着”分解状态更新”这个方向去推。对真正在意推理成本的工程团队而言,这次更新比任何一次纯刷分的发布都值得花时间复现一遍。