
斯坦福 HAI 周三正式发布 2025 年版 AI Index。报告负责人 Nestor Maslej 在新闻稿里给出了一句总结:”这是中国第一次在多个核心维度逼近美国,而开源模型第一次在效率上甩开闭源。”今年的 Index 篇幅近 500 页,跟踪了从模型产出、性能、成本到投资和政策的几乎所有可量化指标。
中美差距收窄到什么程度
去年的 Index 还显示,美国头部模型与中国头部模型在 MMLU、HumanEval、MATH 等评测上的平均差距是 17.5 个百分点。今年这个数字缩到了 1.7 个百分点。重磅模型的产出量上,2025 年全球共发布了 81 个所谓”前沿模型”,其中美国 40 个、中国 27 个、欧洲 9 个,中国的占比从 2023 年的 17% 升到 33%。引用率方面,中国研究者 2025 年在 NeurIPS 与 ICML 的录用论文数已经超过美国本土机构,但作者团队的国际合作比例同步下滑了 12 个百分点。报告对此的措辞颇为微妙:”中国的研究系统在体量上完成了追赶,但在开放协作的深度上仍存在结构性差异。”
开源把推理成本踩下了悬崖
另一组数据更直接。2022 年达到 GPT-3.5 同等水平的推理成本是每百万 tokens 约 20 美元;2025 年,开源模型部署的同等水平成本压到了 0.07 美元,三年降幅 99.7%。报告把这种现象命名为”性价比拐点”。背后是三件事叠加:开源底座的性能逼近闭源、推理框架(vLLM、SGLang、TensorRT-LLM)的吞吐优化、以及国产 GPU 与 ASIC 的低价竞争。Meta 的 Llama 4、阿里的 Qwen 3、DeepSeek 的 V3 三家被点名为”把成本曲线推到悬崖边的关键玩家”。报告同时给了一个对比:闭源旗舰模型的 API 价格在过去 18 个月只下降了约 40%,跟开源端的降幅完全不在一个量级。
差距收窄不等于优势翻盘
把分数追到几乎平手是一回事,把分数转化为持续的工业能力是另一回事。报告里有一组容易被忽略的数据:2025 年全球 AI 私募融资总额 1620 亿美元,美国占 71%,中国占 13%。资本与算力供给的差距比模型分数大得多,这意味着在前沿训练规模上,中美之间的真实距离仍然不止报告里那 1.7 个百分点。开源把推理拉到白菜价,是中国与全球追赶者最有利的杠杆,但这条路要求它们持续把训练成本也压下来——做不到,就只能在别人定义的曲线下方不停地复制。AI Index 给出的不是终点,而是一张需要每年重读的体检报告。