OpenWebRL开源框架网页智能体自主进化

在线强化学习，让网页智能体脱离”喂饭”模式

当前最强的网页智能体——OpenAI CUA、Gemini CUA——都是闭源的。开源阵营一直依赖人工收集的操作轨迹做监督微调，数据成本高、扩展性差。OpenWebRL 换了一条路：直接让智能体在真实网站上做在线多轮强化学习（RL），通过自主试错来学会操作网页。

OpenWebRL框架示意图 — OpenWebRL 提供完整训练管线，包含实时浏览器基础设施与轨迹级成功判别器

团队训练出的 OpenWebRL-4B 模型只用了 0.4K 条初始化轨迹和 2.2K 个开放式 RL 任务，就在两个权威基准上刷新了开源纪录：Online-Mind2Web 成功率 67.0%，DeepShop 成功率 64.0%。论文作者 Rui Yang、Jianfeng Gao 等人指出，这一 4B 参数模型的表现”与 OpenAI CUA 和 Gemini CUA 等闭源系统不相上下”，且超越了此前同等或更大规模的开源智能体。

小模型靠自主探索追平闭源巨头，数据效率才是关键

该框架的几个核心组件——实时浏览器基础设施、多模态上下文管理、轨迹级成功判别器、多轮策略优化——协同工作，让 RL 在真实网络环境中变得可行。论文同时系统性地研究了在线 RL 的关键设计选择，并分析了 RL 如何改善智能体的推理能力。团队计划公开训练数据、模型和代码。

参考：

OpenWebRL: An Open Framework for Training Visual Web Agents via Online Reinforcement Learning

开源框架OpenWebRL发布，网页智能体在真实网络中自主进化

在线强化学习，让网页智能体脱离”喂饭”模式

小模型靠自主探索追平闭源巨头，数据效率才是关键

相关推荐