在线强化学习,让网页智能体脱离”喂饭”模式
当前最强的网页智能体——OpenAI CUA、Gemini CUA——都是闭源的。开源阵营一直依赖人工收集的操作轨迹做监督微调,数据成本高、扩展性差。OpenWebRL 换了一条路:直接让智能体在真实网站上做在线多轮强化学习(RL),通过自主试错来学会操作网页。
团队训练出的 OpenWebRL-4B 模型只用了 0.4K 条初始化轨迹和 2.2K 个开放式 RL 任务,就在两个权威基准上刷新了开源纪录:Online-Mind2Web 成功率 67.0%,DeepShop 成功率 64.0%。论文作者 Rui Yang、Jianfeng Gao 等人指出,这一 4B 参数模型的表现”与 OpenAI CUA 和 Gemini CUA 等闭源系统不相上下”,且超越了此前同等或更大规模的开源智能体。
小模型靠自主探索追平闭源巨头,数据效率才是关键
该框架的几个核心组件——实时浏览器基础设施、多模态上下文管理、轨迹级成功判别器、多轮策略优化——协同工作,让 RL 在真实网络环境中变得可行。论文同时系统性地研究了在线 RL 的关键设计选择,并分析了 RL 如何改善智能体的推理能力。团队计划公开训练数据、模型和代码。
参考: