Anthropic三张底牌遭到曝光

AI资讯

泄露入口:Google Cloud 模型注册表

5 月 25 日,研究者在 Google Cloud Vertex AI 的模型注册表里翻到一组新的 Anthropic 模型标识,名字是 claude-opus-4.7,时间戳显示在最近几天内被推送进谷歌平台。和模型 ID 一起被扒出来的,还有一份号称包含 50 多万行代码的内部仓库快照——里面散落着推理引擎的若干测试用例、安全分类器(safety classifier)的训练脚本,以及部分不应公开的 prompt 模板。

Anthropic 三张底牌遭到曝光
Anthropic 内部模型与代码意外曝光于 Google Cloud 模型注册表

消息最早从一位 LLM 反向分析的独立研究者那里传出。他在 Substack 上贴了截图:模型 ID 通过 Google Vertex AI 的 SDK 接口可以被列举,调用 list_models 时返回了这条没有公开宣传过的 Opus 标识。短短几小时内,Hugging Face 上有人上传了据说是从 Anthropic 内部 demo 实例抓下来的对话样本,X 上几个常年盯 Claude 更新的账号跟着转发,把这次泄露称为 Anthropic 的”三张底牌一并被亮”。Google Cloud 当天下午把这条模型 ID 在 SDK 列表里改成了私有可见。

三张底牌的具体内容

所谓”三张底牌”在传播过程中口径并不一致,但相对集中的版本是:

  • Opus 4.7 模型本身。从泄露的配置文件碎片看,相比 4.6 在长上下文(据传 1M tokens 以上)和工具使用上做了优化。最大输入 token 数被写成 1,048,576——和 Gemini、GPT-5 的长上下文方案在同一量级。
  • Constitutional Vision。Anthropic 此前只在 ICML 论文摘要里提过的项目,把宪法原则从纯文本对齐扩展到图像理解:模型面对一张图时不仅回答问题,还要按宪法准则判断是否涉及未授权人物面孔、未成年内容等结构化标签。
  • 企业 on-prem 部署方案。原本计划在 2026 三季度才公开,配置文件里能看到对 NVIDIA Hopper、AMD MI300、Google TPU v5e 的支持矩阵,最低门槛是 8 张 H100。

每一张拆开看都不算革命性,合在一起是 Anthropic 接下来半年的产品主线。

安全分类器的代码意外曝光

这次泄露最有价值的不是模型 ID,而是被一并曝光的安全分类器代码。从片段里能看到 Anthropic 把 RLHF 之后的最后一道闸门交给了一组分类器——检测越狱(jailbreak)、生化武器相关请求、儿童安全等高风险类目。代码里写明了每一类的阈值与降级策略:当某一类置信度超过设定值时,模型会被强制切换到拒绝路径。

LLM 安全方向研究者 Andy Zou(CMU 博士生,Universal Adversarial Triggers 论文一作)在 X 上贴出他对泄露代码的初步拆解:”分类器是一个 0.5B 参数级别的小模型,独立于主模型运行,每次主模型生成 token 时它都会监听上下文。当某一类风险(CSAM、生化武器制造、自杀诱导等)的置信度超过 0.85 时,主模型会被强制注入一段拒绝模板——这个阈值的设计相对保守,符合 Anthropic 一向的安全偏好。”Eleuther AI 创始人 Stella Biderman 在转帖时给了另一个角度:”这是开源安全研究领域近三年最大的意外礼物——以前我们只能猜 Anthropic 的拒绝管线长什么样,现在它的代码就摆在那里。”

预计未来一周会出现一批针对该评估器的红队结果。”在分类器盲区里钻”的攻击在过去对 GPT-4 的红队工作里被称为 classifier blind spot exploitation——2025 年 Anthropic 自己发过一篇相关防御论文,但论文里的具体阈值和分类边界从未披露。这次泄露相当于把这道防御的门槛在论文之外又对外露了一截。

模型 ID 不该再被当成低敏感资产

Anthropic 把权重和系统提示词当成秘密、把模型 ID 和 SDK 列举接口当成低敏感——这个判断在模型迭代节奏远远慢于现在的年代是合理的,但在 2026 年这个节奏下已经过时。一个未发布模型的 ID 就是它产品节奏的指纹,被别人拿到就够推算很多东西。

三张底牌还在 Anthropic 手里,但已经被人看了一眼牌面。截至发稿,Anthropic 官方没有回应,CEO Dario Amodei 和总裁 Daniela Amodei 都没有公开发言,Claude 状态页和官博保持沉默。这种”装作没发生过”的反应方式在大模型公司里少见——通常这种规模的泄露会触发”加速发布”或”正面回应”。Anthropic 选了第三种,可能是想等内部调查完成再决定如何对外。接下来值得盯的是它怎么调整发布节奏——加速 Opus 4.7 抢回话语权,还是冷处理几周等热度过去。


参考:模型泄密风波