Gemini 3.5 Flash 静默上线：首 Token 延迟压到 0.3 秒

Flash 这次主打的是延迟

谷歌在没有发布会、没有预热的情况下把 Gemini 3.5 Flash 直接推到了 AI Studio 和 Vertex 上线列表。Reddit 的 r/artificial 板块第一时间炸出测评帖，上传截图的开发者反复提到一个数字：长上下文场景下的首 Token 延迟压到了 0.3 秒附近，长文摘要的吞吐量比 2.0 Flash 大概快了一倍。DeepMind 的 Logan Kilpatrick 在 X 上跟帖确认这是”针对智能体循环调用优化的版本”，并强调价格保持在 Flash 档位。

Gemini 3.5 Flash 模型卡截图 — 新模型在 AI Studio 列表里直接替换了 2.0 Flash 的位置，没有过渡期。

智能体框架抢着接

真正在意这次更新的是 Agent 框架的维护者。LangChain 创始人 Harrison Chase 当晚就把 3.5 Flash 加进了默认推荐列表，他在 X 上写道：”Flash 这次终于跑赢了 Haiku，对于循环调工具的场景这是质的变化。”截至发稿，n8n、CrewAI、Dify 都已经在文档里更新了模型 ID。社区目前关注的 bug 是函数调用偶发返回空 JSON，谷歌官方表示正在排查。

价格不动才是杀招

Flash 这条线从 1.5 一路到 3.5，谷歌每次都在做同一件事：把推理速度推上去，把价格按住。和 Anthropic Haiku 4.5 相比，3.5 Flash 在长上下文上的优势已经从”差不多”变成”明显更便宜的那个选项”，对那些每天跑几百万次小任务的中后台业务来说，迁移决策不需要太久。

参考链接：推理速度极快

谷歌突袭发布闪电级模型 Gemini 3

Flash 这次主打的是延迟

智能体框架抢着接

价格不动才是杀招

相关推荐