EchoRL 新框架破解强化学习信号坍塌难题

基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）已成为大语言模型后训练阶段增强推理能力的主流手段。然而随着训练推进，一个被研究者称为”信号坍塌”的现象逐渐浮现：当模型生成的绝大部分 rollout 都通过了正确性验证时，这些成功样本之间的奖励标准差归零，导致策略梯度失去有效信号，训练收益急剧衰减。这一问题直接限制了 RLVR 方法所能达到的性能上限。

熵值剪裁：从成功轨迹中挖掘剩余学习信号

来自慕尼黑大学、西门子 AI 实验室及多家机构联合团队提出的 EchoRL 框架，从另一个角度重新审视了这些”无用的成功 rollout”。研究团队发现，虽然这些轨迹在结果层面全部正确，但它们在每一步 token 级别的熵值分布上存在显著差异——某些步骤的模型预测充满不确定性（高熵），而另一些则高度确定（低熵）。那些高熵步骤恰恰包含了模型仍在”挣扎”的学习信号。

EchoRL 的核心组件是一个称为 EchoClip 的轻量级模块，其工作流程包括以下几个关键环节：

在验证成功的 rollout 集合中，基于逐步骤的熵值识别出”从不确定到确定”的关键片段，即 EchoClip
将 EchoClip 作为辅助监督信号注入 RL 目标函数中，使原本被忽略的成功样本重新参与梯度更新
整个模块仅需极少的额外计算开销，不改变原有训练流程的骨干结构

“我们发现，现有 RLVR 方法将成功 rollout 简单视为等价样本、统一赋予零优势值的做法，实际上丢弃了大量仍在传递学习信号的过渡步骤。”论文第一作者、慕尼黑大学博士生毕津赫（Jinhe Bi）解释道，”EchoRL 的核心洞见在于，并非整条轨迹都有价值，但轨迹中的某些片段仍然携带了模型尚未饱和的推理信息。”

十项基准、五种骨干模型验证一致性收益

EchoRL 的泛化能力在实验中得到了充分验证。研究团队在 10 个推理基准、5 种不同规模的大语言模型骨干（从 7B 到 70B 参数不等），以及 4 种主流的 RLVR 后训练方法上进行了交叉测试。实验数据显示，EchoRL 在所有设定下均带来了持续且稳定的性能提升。

值得关注的是，EchoRL 在训练后期优势尤为突出——这正是原始 RLVR 方法收益开始衰减的阶段。EchoRL 将这一平台期的到来时间平均推迟了约 30% 的训练步数，并在最终收敛点上取得了额外的准确率增长。

局限性与后续

EchoRL 的效果高度依赖于熵值信号的质量。实验表明，当基座模型的策略分布本身过于集中（即大多数步骤都处于低熵状态）时，EchoClip 的可提取信息量会显著下降。此外，EchoClip 长度超参数在不同任务间的敏感度尚未被系统研究。研究团队表示，未来工作将探索自适应 EchoClip 长度机制，并将该框架推广到连续控制任务等更广泛的 RL 场景中。

参考：EchoRL: Reinforcement Learning via Rollout Echoing, arXiv:2605.31228（ICML 2026）

全新强化学习框架 EchoRL 发布

熵值剪裁：从成功轨迹中挖掘剩余学习信号

十项基准、五种骨干模型验证一致性收益

局限性与后续

相关推荐