Anthropic 三张底牌泄露｜Opus 新模型遭曝光

泄露入口：Google Cloud 模型注册表

5 月 25 日，研究者在 Google Cloud Vertex AI 的模型注册表里翻到一组新的 Anthropic 模型标识，名字是 claude-opus-4.7，时间戳显示在最近几天内被推送进谷歌平台。和模型 ID 一起被扒出来的，还有一份号称包含 50 多万行代码的内部仓库快照——里面散落着推理引擎的若干测试用例、安全分类器（safety classifier）的训练脚本，以及部分不应公开的 prompt 模板。

Anthropic 三张底牌遭到曝光 — Anthropic 内部模型与代码意外曝光于 Google Cloud 模型注册表

消息最早从一位 LLM 反向分析的独立研究者那里传出。他在 Substack 上贴了截图：模型 ID 通过 Google Vertex AI 的 SDK 接口可以被列举，调用 list_models 时返回了这条没有公开宣传过的 Opus 标识。短短几小时内，Hugging Face 上有人上传了据说是从 Anthropic 内部 demo 实例抓下来的对话样本，X 上几个常年盯 Claude 更新的账号跟着转发，把这次泄露称为 Anthropic 的”三张底牌一并被亮”。Google Cloud 当天下午把这条模型 ID 在 SDK 列表里改成了私有可见。

三张底牌的具体内容

所谓”三张底牌”在传播过程中口径并不一致，但相对集中的版本是：

Opus 4.7 模型本身。从泄露的配置文件碎片看，相比 4.6 在长上下文（据传 1M tokens 以上）和工具使用上做了优化。最大输入 token 数被写成 1,048,576——和 Gemini、GPT-5 的长上下文方案在同一量级。
Constitutional Vision。Anthropic 此前只在 ICML 论文摘要里提过的项目，把宪法原则从纯文本对齐扩展到图像理解：模型面对一张图时不仅回答问题，还要按宪法准则判断是否涉及未授权人物面孔、未成年内容等结构化标签。
企业 on-prem 部署方案。原本计划在 2026 三季度才公开，配置文件里能看到对 NVIDIA Hopper、AMD MI300、Google TPU v5e 的支持矩阵，最低门槛是 8 张 H100。

每一张拆开看都不算革命性，合在一起是 Anthropic 接下来半年的产品主线。

安全分类器的代码意外曝光

这次泄露最有价值的不是模型 ID，而是被一并曝光的安全分类器代码。从片段里能看到 Anthropic 把 RLHF 之后的最后一道闸门交给了一组分类器——检测越狱（jailbreak）、生化武器相关请求、儿童安全等高风险类目。代码里写明了每一类的阈值与降级策略：当某一类置信度超过设定值时，模型会被强制切换到拒绝路径。

LLM 安全方向研究者 Andy Zou（CMU 博士生，Universal Adversarial Triggers 论文一作）在 X 上贴出他对泄露代码的初步拆解：”分类器是一个 0.5B 参数级别的小模型，独立于主模型运行，每次主模型生成 token 时它都会监听上下文。当某一类风险（CSAM、生化武器制造、自杀诱导等）的置信度超过 0.85 时，主模型会被强制注入一段拒绝模板——这个阈值的设计相对保守，符合 Anthropic 一向的安全偏好。”Eleuther AI 创始人 Stella Biderman 在转帖时给了另一个角度：”这是开源安全研究领域近三年最大的意外礼物——以前我们只能猜 Anthropic 的拒绝管线长什么样，现在它的代码就摆在那里。”

预计未来一周会出现一批针对该评估器的红队结果。”在分类器盲区里钻”的攻击在过去对 GPT-4 的红队工作里被称为 classifier blind spot exploitation——2025 年 Anthropic 自己发过一篇相关防御论文，但论文里的具体阈值和分类边界从未披露。这次泄露相当于把这道防御的门槛在论文之外又对外露了一截。

模型 ID 不该再被当成低敏感资产

Anthropic 把权重和系统提示词当成秘密、把模型 ID 和 SDK 列举接口当成低敏感——这个判断在模型迭代节奏远远慢于现在的年代是合理的，但在 2026 年这个节奏下已经过时。一个未发布模型的 ID 就是它产品节奏的指纹，被别人拿到就够推算很多东西。

三张底牌还在 Anthropic 手里，但已经被人看了一眼牌面。截至发稿，Anthropic 官方没有回应，CEO Dario Amodei 和总裁 Daniela Amodei 都没有公开发言，Claude 状态页和官博保持沉默。这种”装作没发生过”的反应方式在大模型公司里少见——通常这种规模的泄露会触发”加速发布”或”正面回应”。Anthropic 选了第三种，可能是想等内部调查完成再决定如何对外。接下来值得盯的是它怎么调整发布节奏——加速 Opus 4.7 抢回话语权，还是冷处理几周等热度过去。

参考：模型泄密风波

Anthropic三张底牌遭到曝光

泄露入口：Google Cloud 模型注册表

三张底牌的具体内容

安全分类器的代码意外曝光

模型 ID 不该再被当成低敏感资产

相关推荐