基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)已成为大语言模型后训练阶段增强推理能力的主流手段。然而随着训练推进,一个被研究者称为”信号坍塌”的现象逐渐浮现:当模型生成的绝大部分 rollout 都通过了正确性验证时,这些成功样本之间的奖励标准差归零,导致策略梯度失去有效信号,训练收益急剧衰减。这一问题直接限制了 RLVR 方法所能达到的性能上限。
熵值剪裁:从成功轨迹中挖掘剩余学习信号
来自慕尼黑大学、西门子 AI 实验室及多家机构联合团队提出的 EchoRL 框架,从另一个角度重新审视了这些”无用的成功 rollout”。研究团队发现,虽然这些轨迹在结果层面全部正确,但它们在每一步 token 级别的熵值分布上存在显著差异——某些步骤的模型预测充满不确定性(高熵),而另一些则高度确定(低熵)。那些高熵步骤恰恰包含了模型仍在”挣扎”的学习信号。
EchoRL 的核心组件是一个称为 EchoClip 的轻量级模块,其工作流程包括以下几个关键环节:
- 在验证成功的 rollout 集合中,基于逐步骤的熵值识别出”从不确定到确定”的关键片段,即 EchoClip
- 将 EchoClip 作为辅助监督信号注入 RL 目标函数中,使原本被忽略的成功样本重新参与梯度更新
- 整个模块仅需极少的额外计算开销,不改变原有训练流程的骨干结构
“我们发现,现有 RLVR 方法将成功 rollout 简单视为等价样本、统一赋予零优势值的做法,实际上丢弃了大量仍在传递学习信号的过渡步骤。”论文第一作者、慕尼黑大学博士生毕津赫(Jinhe Bi)解释道,”EchoRL 的核心洞见在于,并非整条轨迹都有价值,但轨迹中的某些片段仍然携带了模型尚未饱和的推理信息。”
十项基准、五种骨干模型验证一致性收益
EchoRL 的泛化能力在实验中得到了充分验证。研究团队在 10 个推理基准、5 种不同规模的大语言模型骨干(从 7B 到 70B 参数不等),以及 4 种主流的 RLVR 后训练方法上进行了交叉测试。实验数据显示,EchoRL 在所有设定下均带来了持续且稳定的性能提升。
值得关注的是,EchoRL 在训练后期优势尤为突出——这正是原始 RLVR 方法收益开始衰减的阶段。EchoRL 将这一平台期的到来时间平均推迟了约 30% 的训练步数,并在最终收敛点上取得了额外的准确率增长。
局限性与后续
EchoRL 的效果高度依赖于熵值信号的质量。实验表明,当基座模型的策略分布本身过于集中(即大多数步骤都处于低熵状态)时,EchoClip 的可提取信息量会显著下降。此外,EchoClip 长度超参数在不同任务间的敏感度尚未被系统研究。研究团队表示,未来工作将探索自适应 EchoClip 长度机制,并将该框架推广到连续控制任务等更广泛的 RL 场景中。
参考:EchoRL: Reinforcement Learning via Rollout Echoing, arXiv:2605.31228(ICML 2026)