阿里发布 Qwen 3.7-Max：35小时 agentic 自我演练

Qwen 3.7-Max 上线百炼和 ModelStudio

阿里巴巴 Qwen 团队在 5 月 22 日的 X 公告里宣布 Qwen 3.7-Max 旗舰模型同步上线百炼平台和阿里云 ModelStudio。@Alibaba_Qwen 账号在贴文里给出的关键说法是：”这次发版把 agentic 内核的预训练后阶段拉长到了 35 小时连续自我演练，没有人类标注介入。”配合的是新一轮 RLHF 和工具调用强化训练，目标对齐 Anthropic Claude Sonnet 4.5 在 SWE-bench-Verified 上的水位。

Qwen 3.7-Max 模型卡和性能对比图 — 新版本在百炼平台的模型卡里直接接管了 Qwen3-Max 的位置。

“35 小时自我演练”到底训了什么

这条数字最值得拆。Qwen 团队负责人 Junyang Lin 在 X 跟帖时解释：”35 小时不是总训练时长，是 agentic 子任务里模型自我探索环境的累计步数等价时长。”换句话说，这是一段无人类标注的 self-play，模型在沙箱里反复跑工具调用、文件编辑、shell 命令、Web 浏览——这一套合起来就是当下 Agent 评测的标准动作集。这种自我演练并非阿里独创，OpenAI o3、Anthropic Claude 4.5 都跑过类似流程，区别在于 Qwen 把这部分时间预算公开摆出来当卖点。Junyang Lin 在贴文末尾给的判断是：”3.7-Max 在 SWE-bench-Verified 上接近 Claude Sonnet 4.5，工具调用稳定性比上一版高出一档。”

开源传统这次会不会延续

Qwen 这条产品线最特别的一点是 Max 收费、其他全开源。Qwen3 系列的 Coder、Plus、Flash 此前都放出了完整权重，社区里基于 Qwen3-Coder-480B 微调的项目已经过百。3.7-Max 公告里没明说要不要开源，从过往节奏看，旗舰版会先在百炼上独占 1-2 个月，蒸馏版的 30B/235B 才会跟上 Hugging Face。这套节奏在 5 月之前帮 Qwen 在 OpenRouter 的中文请求量爬到了第二位。对国内做 Agent 产品的团队来说，等 30B 蒸馏版才是真正的决策点——它直接决定下一版本能不能在国内 GPU 上自托管。

参考链接：Alibaba Qwen 3.7-Max 发布公告

千问旗舰模型正式发布

Qwen 3.7-Max 上线百炼和 ModelStudio

“35 小时自我演练”到底训了什么

开源传统这次会不会延续

相关推荐