阿里发布训推一体 AI 芯片

AI资讯

阿里云的”含光二代”把训练和推理塞进同一颗芯片

5 月 21 日《联合早报》援引阿里云 2026 年合作伙伴大会的内容报道——阿里云在大会现场发布了新一代自研 AI 芯片”含光 800 Plus”(内部代号 Hanguang 2)。这颗芯片的关键差别是从上一代的纯推理 ASIC 变成了”训推一体”的通用 AI 加速器,可以同时承载训练任务和推理任务。阿里云智能集团 CEO 吴泳铭在大会主题演讲里给的定位是”阿里云未来三年自有算力的主力供给”,配套披露的产品路线图把第一批量产时间定在 2026 年下半年。

阿里云含光 800 Plus 训推一体 AI 芯片
含光 2 代采用 chiplet 多裸片封装,单芯片峰值 BF16 算力 700 TFLOPS

从含光一代到含光二代的代际跳跃

2019 年阿里达摩院发布的含光 800 是一颗纯推理 ASIC——固定算子、固定数据流、不能跑训练。2025 年这条路线在国内被验证过,效率高但灵活度差,跟不上大模型时代算子频繁演进的节奏。含光 2 代把这个判断推翻了,新架构借鉴了 NVIDIA Hopper 的设计思路:可编程通用矩阵单元 + 专用 transformer 引擎 + 高带宽 HBM3 显存。早报披露的关键数字有三个——单芯片 BF16 算力 700 TFLOPS、HBM3 显存 128GB(带宽 4TB/s)、互联带宽 900GB/s。这些数字大致落在 NVIDIA H100 的 90% 这一档(H100 BF16 算力 990 TFLOPS、HBM3 80GB),但定价比 H100 在国内的水货价低约 50%。

这套规格能跑什么级别的模型,吴泳铭在主题演讲里给了一个具体答案:8 卡含光 2 代节点可以训练 70B 参数的模型,64 卡集群可以训练 400B 参数模型——这是阿里通义千问(Qwen3)后续版本预期使用的训练算力。推理这一侧含光 2 代的 KV cache 加速做了专门优化,跑 Qwen3-72B 推理时端到端吞吐比 H100 高 20%。这意味着阿里在国产 GPU 紧缺的环境下,给自家模型团队和云客户准备了一条”自产自销”的算力路线。

训推一体的工程意义和挑战

训推一体这个概念过去几年被讨论过很多次但落地的不多。头部玩家分两派——NVIDIA 和 Google(TPU)走训推一体;AWS Trainium/Inferentia、Meta MTIA、华为昇腾 910 这一支走训推分离。两条路线的核心分歧在于:”训练任务和推理任务的工作负载特征差别太大,能不能用同一颗芯片高效覆盖?”含光 2 代选了训推一体路线,工程动机来自阿里云内部的资源利用率统计:白天推理负载是峰值的 90%,夜间是 30%;训练任务正好相反,集中在凌晨到清晨。一颗芯片能两边都跑,集群利用率能从 60% 提到 85% 以上。

挑战集中在编译器栈和算子库。含光一代是 ASIC,算子是 hard-coded 的;含光 2 代要支持任意 PyTorch/JAX 工作负载,编译器(PAI-Blade)和算子库(XLA-like 的 IR)都要做大量工作。阿里云在 2025 年第三季度收购了上海的一支编译器团队(前商汤编译器组),这次发布会上证实了这个团队是含光 2 代软件栈的主力——这条线如果跑不通,硬件再强也会卡在软件层。NVIDIA CUDA 软件栈的护城河就在于此,国产芯片要追的不是 FP16 算力,是几千个常用算子的成熟度。

客户和合作伙伴的反应

大会现场签约的客户名单透露了几个信号。第一批宣布迁移到含光 2 代的客户包括小红书、得物、莉莉丝游戏、招联金融——这些公司的共同特征是 AI 推理需求大但训练需求中等,对成本敏感。集团内部的智能信息事业群(夸克、淘宝问问)也表态会”按比例”切到含光 2 代。第二批信号来自合作伙伴——百川智能、零一万物、面壁智能这三家国内大模型公司被列在”早期合作伙伴”清单里,意味着这些公司会拿到工程版芯片做适配。这是阿里云做软件适配的关键一步,没有外部模型厂的背书,含光 2 代只能内部用,软件栈很难成熟。

外部评价分两支。中信证券电子行业首席分析师徐涛在一份研报里给的判断偏正面:”国产 AI 芯片过去 18 个月最大的变量是阿里云这一波动作。如果含光 2 代能在 2027 年达到 10 万张量级出货,国内 AI 算力的 NVIDIA 依赖度能下降 15 个百分点。”不过 SemiAnalysis 创始人 Dylan Patel 在 X 上的评论更冷静:”训推一体这条路 NVIDIA 用了 8 年才走通,阿里要把 CUDA 生态的工作量浓缩到 2 年完成,软件栈成熟度是真正的考验。我会等 2027 年的实际客户使用数据再评判。”

这步棋不是芯片本身,是阿里云的算力供给主权

含光 2 代发布的真正意义不是性能数字——很多媒体把这件事写成了”国产芯片对标 H100″,这是不准确的视角。真正的看点是阿里云这家中国最大的公有云厂商,开始往”自有算力主权”这个方向上做长期工程投入。过去两年所有云厂商都在算 ROI——自研芯片要烧多少钱、什么时候回本、要不要赌。阿里云这次给了答案:赌。这个判断的合理性来自一个残酷事实——美国出口管制下,能不能持续拿到 H100/H200 的国内云厂商已经不存在了。要么自研,要么放弃 AI 算力主战场。含光 2 代不是赢得对 NVIDIA 的竞争,是把”如果有一天 H100 完全断供,阿里云还能不能给客户交付算力”这个问题答了。这个问题答了,阿里云的客户黏性才能在长期被守住。


参考链接: