XWind 实现大模型绿色推理调度

AI资讯

把推理芯片塞进风电场

arxiv 编号 2605.23348 的论文 5 月 26 日上传,题目是 XWind: Co-locating LLM Inference with Wind Farms。第一作者 Liu Wenjie 来自香港科技大学(广州)能源系统实验室,合作单位有华润电力和阿里云。论文把推理集群直接架在了内蒙古乌兰察布和广东汕尾的两个风电场旁边,做了 6 个月的端到端实测。

XWind 实现大模型绿色推理调度

常规思路是模型推理放在数据中心、风电卖给电网,中间过一层电网调度。XWind 的做法把这一层拆掉——风电直接进集群、不并网,避免长距离输电和电网调度的损耗。代价是风力波动直接转成算力波动:风停了,集群就只能从备用电池或备用柴发那里抠电。

算力跟着风走,不是反过来

论文里最值得抄走的是调度器设计。XWind 把推理请求按 latency 敏感度切成三档:实时对话(< 200ms)、批处理(< 5s)、离线评测(无 deadline)。风力高时三档都满负载跑,风力跌到 60% 以下时调度器先降第三档优先级,让 GPU 进低频空转;跌到 30% 以下连第二档也排队、只保实时对话。论文报告在内蒙站点的 6 个月实测里,端到端 latency 中位数从对照组(同样 GPU 在普通数据中心跑)的 320ms 降到 158ms——降了大约 50%——主要原因是离推理芯片更近的本地缓存命中率上升、绕开了广域网。

论文同时报告了几个不那么好看的数据。集群利用率因为风力波动只能维持在 67%,远低于普通数据中心的 85% 以上;柴油备用机组在 6 个月内启动了 37 次,每次平均运行 2.4 小时,碳排放折算下来反向冲掉了风电节省的 11%。Liu Wenjie 在论文 Limitations 部分写:”XWind 的部署经济性在现阶段强烈依赖中国西北部的风电消纳压力——只有当电价低到电网不愿意收的时候,本地直连才有套利空间。”

能源套利模式能否复制要看消纳压力

风电场在中国西北部确实有消纳问题,2025 年内蒙弃风率仍在 8% 上下,等于发出来卖不掉的电要被强制弃掉。XWind 抓的就是这个套利空间——把弃掉的电直接喂给推理。但模式能不能往美国、欧洲推就不好说了。德州的 ERCOT 电力市场已经有”灵活负载 + 风/光”组合,但电价波动让本地集群的回本周期长达 5 到 7 年,不如就近接入电网划算。

这篇论文还有一个工程细节值得留意:集群和风机之间的低压直流连接,绕开了交流逆变环节,省下大约 4% 的转换损耗。这个数字单看不大,但叠在 6 个月的总耗电上就是几十万美元的电费。能源套利不是新故事,从 2014 年比特币矿场进四川丰水期就开始玩,但把”算力跟风走”的调度器做到论文级别的可复现,XWind 是第一篇。


参考:arxiv 论文