阿里云发布含光800 Plus：训推一体芯片700 TFLOPS算力

阿里云的”含光二代”把训练和推理塞进同一颗芯片

5 月 21 日《联合早报》援引阿里云 2026 年合作伙伴大会的内容报道——阿里云在大会现场发布了新一代自研 AI 芯片”含光 800 Plus”（内部代号 Hanguang 2）。这颗芯片的关键差别是从上一代的纯推理 ASIC 变成了”训推一体”的通用 AI 加速器，可以同时承载训练任务和推理任务。阿里云智能集团 CEO 吴泳铭在大会主题演讲里给的定位是”阿里云未来三年自有算力的主力供给”，配套披露的产品路线图把第一批量产时间定在 2026 年下半年。

阿里云含光 800 Plus 训推一体 AI 芯片 — 含光 2 代采用 chiplet 多裸片封装，单芯片峰值 BF16 算力 700 TFLOPS

从含光一代到含光二代的代际跳跃

2019 年阿里达摩院发布的含光 800 是一颗纯推理 ASIC——固定算子、固定数据流、不能跑训练。2025 年这条路线在国内被验证过，效率高但灵活度差，跟不上大模型时代算子频繁演进的节奏。含光 2 代把这个判断推翻了，新架构借鉴了 NVIDIA Hopper 的设计思路：可编程通用矩阵单元 + 专用 transformer 引擎 + 高带宽 HBM3 显存。早报披露的关键数字有三个——单芯片 BF16 算力 700 TFLOPS、HBM3 显存 128GB（带宽 4TB/s）、互联带宽 900GB/s。这些数字大致落在 NVIDIA H100 的 90% 这一档（H100 BF16 算力 990 TFLOPS、HBM3 80GB），但定价比 H100 在国内的水货价低约 50%。

这套规格能跑什么级别的模型，吴泳铭在主题演讲里给了一个具体答案：8 卡含光 2 代节点可以训练 70B 参数的模型，64 卡集群可以训练 400B 参数模型——这是阿里通义千问（Qwen3）后续版本预期使用的训练算力。推理这一侧含光 2 代的 KV cache 加速做了专门优化，跑 Qwen3-72B 推理时端到端吞吐比 H100 高 20%。这意味着阿里在国产 GPU 紧缺的环境下，给自家模型团队和云客户准备了一条”自产自销”的算力路线。

训推一体的工程意义和挑战

训推一体这个概念过去几年被讨论过很多次但落地的不多。头部玩家分两派——NVIDIA 和 Google（TPU）走训推一体；AWS Trainium/Inferentia、Meta MTIA、华为昇腾 910 这一支走训推分离。两条路线的核心分歧在于：”训练任务和推理任务的工作负载特征差别太大，能不能用同一颗芯片高效覆盖？”含光 2 代选了训推一体路线，工程动机来自阿里云内部的资源利用率统计：白天推理负载是峰值的 90%，夜间是 30%；训练任务正好相反，集中在凌晨到清晨。一颗芯片能两边都跑，集群利用率能从 60% 提到 85% 以上。

挑战集中在编译器栈和算子库。含光一代是 ASIC，算子是 hard-coded 的；含光 2 代要支持任意 PyTorch/JAX 工作负载，编译器（PAI-Blade）和算子库（XLA-like 的 IR）都要做大量工作。阿里云在 2025 年第三季度收购了上海的一支编译器团队（前商汤编译器组），这次发布会上证实了这个团队是含光 2 代软件栈的主力——这条线如果跑不通，硬件再强也会卡在软件层。NVIDIA CUDA 软件栈的护城河就在于此，国产芯片要追的不是 FP16 算力，是几千个常用算子的成熟度。

客户和合作伙伴的反应

大会现场签约的客户名单透露了几个信号。第一批宣布迁移到含光 2 代的客户包括小红书、得物、莉莉丝游戏、招联金融——这些公司的共同特征是 AI 推理需求大但训练需求中等，对成本敏感。集团内部的智能信息事业群（夸克、淘宝问问）也表态会”按比例”切到含光 2 代。第二批信号来自合作伙伴——百川智能、零一万物、面壁智能这三家国内大模型公司被列在”早期合作伙伴”清单里，意味着这些公司会拿到工程版芯片做适配。这是阿里云做软件适配的关键一步，没有外部模型厂的背书，含光 2 代只能内部用，软件栈很难成熟。

外部评价分两支。中信证券电子行业首席分析师徐涛在一份研报里给的判断偏正面：”国产 AI 芯片过去 18 个月最大的变量是阿里云这一波动作。如果含光 2 代能在 2027 年达到 10 万张量级出货，国内 AI 算力的 NVIDIA 依赖度能下降 15 个百分点。”不过 SemiAnalysis 创始人 Dylan Patel 在 X 上的评论更冷静：”训推一体这条路 NVIDIA 用了 8 年才走通，阿里要把 CUDA 生态的工作量浓缩到 2 年完成，软件栈成熟度是真正的考验。我会等 2027 年的实际客户使用数据再评判。”

这步棋不是芯片本身，是阿里云的算力供给主权

含光 2 代发布的真正意义不是性能数字——很多媒体把这件事写成了”国产芯片对标 H100″，这是不准确的视角。真正的看点是阿里云这家中国最大的公有云厂商，开始往”自有算力主权”这个方向上做长期工程投入。过去两年所有云厂商都在算 ROI——自研芯片要烧多少钱、什么时候回本、要不要赌。阿里云这次给了答案：赌。这个判断的合理性来自一个残酷事实——美国出口管制下，能不能持续拿到 H100/H200 的国内云厂商已经不存在了。要么自研，要么放弃 AI 算力主战场。含光 2 代不是赢得对 NVIDIA 的竞争，是把”如果有一天 H100 完全断供，阿里云还能不能给客户交付算力”这个问题答了。这个问题答了，阿里云的客户黏性才能在长期被守住。

参考链接：

阿里发布训推一体 AI 芯片

阿里云的”含光二代”把训练和推理塞进同一颗芯片

从含光一代到含光二代的代际跳跃

训推一体的工程意义和挑战

客户和合作伙伴的反应

这步棋不是芯片本身，是阿里云的算力供给主权

相关推荐