跟传统的数据中心相比,aidc 耗电量能暴涨这么多,到底是因为什么?

跟传统的数据中心相比,AIDC耗电量能暴涨这么多,到底是因为什么呢?1、主要是因为核心芯片变了,传统中心里那种CPU本来就是为了处理复杂逻辑设计的,发热控制得挺稳,通常也就200到400瓦左右。但现在用的是GPU或者ASIC,性能强了功耗自然就上去了。像Blackwell还有H200这种高性能的AI芯片,单颗的功耗都快摸到或者超过700瓦甚至1000瓦了。这就好比一辆平时只要开200多码就能平稳行驶的车,现在换成了超跑,虽然速度快了不少,但发动机肯定得开足马力。2、机架密度这块变化也很大。以前普通机架撑死也就5到15千瓦的功率。现在随着NVLink这些高速互联技术发展起来了,为了减少延迟,服务器就得像积木一样紧紧地堆叠在一起。现在的AI机柜功率动辄40千瓦到100千瓦以上。同样是那么大的地方放服务器,AI机房对电的需求是以前的5到10倍。3、散热方面带来的“冷却税”也非常夸张。传统机房靠吹吹冷风就能搞定。可AI芯片发的热太集中了,普通的风冷根本顶不住。这时候就不得不引入液冷技术。要么用冷板式液冷把热量导出来,要么干脆让服务器泡在液体里散热。虽说液冷本身效率高了很多,但为了驱动那庞大的水泵系统和各种换热设备,仍然要消耗大量的电力。4、工作模式更是大不相同。传统的任务比如上上网或者发个邮件都是断断续续的,服务器经常能歇歇脚。但AI训练任务一旦启动,比如训练一个大型语言模型(LLM),成千上万颗GPU就会立马进入100%的满负荷状态。而且这一忙就是数周甚至数月,几乎完全停不下来。这种一直都在“加班”的状态让它比传统业务要多吃不少电。5、存储和网络方面的开销也不容小觑。做AI不光是计算量大,还需要海量数据的吞吐。GPU要想跑得动就得搭配HBM这种高带宽显存。虽然HBM效率很高,但当服务器里用的量非常大时,这些显存自己消耗的电量也变得相当可观。还有就是为了维持数万颗芯片之间“秒级通信”的那些光模块和交换机本身也是发热大户。