智谱 GLM-5.1 Turbo 上线 400 token/s 200K 上下文

智谱 5 月 22 日把 GLM-5.1 的极速版（GLM-5.1 Turbo）正式上线，AIbase 当天的报道给出几个关键数字：输出速度 400 token/s，上下文窗口 200K，推理 API 单价比 GLM-5.1 Flash 进一步下调。配合公告，港股智谱（01776.HK）盘中一度冲高超过 30%，成交额翻倍。

这一波不是简单的”出新”，而是把 GLM-5 系列拆成三档——Pro 主打能力上限、Flash 主打性价比、Turbo 主打极速延迟敏感场景。Turbo 这一档之所以被外界关注，是因为它直接对标 OpenAI、Anthropic 在低延迟侧的产品（GPT-4o-realtime、Claude Haiku 之类），把”国产模型只在性价比上有优势”的旧叙事拉到了”在延迟侧也能正面竞争”的位置。

每秒 400 token 在使用层面意味着什么

纯数字里 400 token/s 容易被一带而过。换成体感，它意味着一段 2000 字的中文回复在 5 秒内全部吐完，长一点的代码生成可以一次写出几个完整文件。对话类产品里，这个速度足以让交互体感从”等模型”切换到”边看边读”。

更重要的影响在 Agent 工作流里。Agent 一次任务通常要做十几次 LLM 调用，每次都等 8 秒就是两分多钟纯等待，等到 Turbo 这种 400 token/s 的模型上线，单任务延迟可以缩到几十秒级别。智谱在公告里也把”Agent 极速调度”作为推荐场景之一，方向上和 DeepSeek 这一波 Coding Agent 强调的”调度密度”是一致的。

200K 上下文不再是高端模型的专属

另一个被忽略的细节是 200K 上下文。一年前这是 GPT-4-128K、Claude-200K 这种顶级闭源模型的专属配置，现在 GLM-5.1 Turbo 把这个尺寸下放到极速档，意味着长文档分析、整库 RAG、长会话记忆这几类场景，可以在低成本档位里直接拿到。

对比 GLM 自家的版本节奏：GLM-4 系列时代上下文还停在 128K，GLM-5 整个系列把这条线统一抬到 200K 起步。这不是单纯堆 size，而是配合 KV cache 压缩、注意力结构调整后的工程化产物。Turbo 把这套技术下放到低延迟档，等于给应用开发者多了一个不用在长上下文和延迟之间二选一的选项。

港股反应背后的逻辑链不止短期情绪

智谱港股盘中暴涨表面是”模型发布利好股价”的常规剧情，但拆开看市场关注的并不是单点产品，而是智谱在拆分模型档位、提升商业化清晰度上的进展。极速版的存在让企业客户在采购时有了更明确的选型逻辑：要质量选 Pro，要量大选 Flash，要快选 Turbo。这种产品矩阵清晰度本身就是估值的一部分。

更长一点的逻辑链是国产模型在企业服务市场的真实份额。智谱、月之暗面、DeepSeek、阶跃、百川五家头部模型最近一年都在做接近的事——把模型分层、把价格往下打、把上下文窗口往上推。GLM-5.1 Turbo 的位置类似于 DeepSeek-V4 的便宜档之于 Coding Agent，是给 ToB 客户做大规模部署时的默认选项。

速度战之后下一个分水岭是工具调用稳定性

把单纯生成速度的卷度做到 400 token/s 之后，再快的边际收益其实有限——人眼也来不及看。下一个真正决定 Agent 时代格局的指标是工具调用的可靠性：function calling 的成功率、JSON schema 的遵循度、长链路任务的回滚能力。这些指标过去主要是闭源模型的优势区，国产模型今年的进展不算慢，但还没有谁能给出可被独立审计的稳定数字。

极速版上线之后，智谱接下来的动作值得盯紧：会不会公开 function calling 的 benchmark、会不会披露生产环境的 tool-use 成功率分布、能不能给到可订阅的稳定性 SLA。这些是企业客户真正掏钱的依据，也是从”模型公司”升级到”基础设施公司”的必经环节。

参考资料：

AIbase 报道，智谱发布极速版 GLM-5.1，港股股价瞬间暴涨，2026-05-22
智谱开放平台 GLM-5.1 Turbo 模型卡与官方价格页

智谱发布极速版 GLM-5

每秒 400 token 在使用层面意味着什么

200K 上下文不再是高端模型的专属

港股反应背后的逻辑链不止短期情绪

速度战之后下一个分水岭是工具调用稳定性

相关推荐