,腾讯旗下的微信和QQ产品曾出现大范围崩溃,事故原因是广州电信机房冷却系统发生故障。仓促之中,故障机房曾被迫使用冰块降温,但收效甚微。腾讯将这次事件定义为公司一级事故,多名相关人员受到处罚。
这起事故也提示我们:在人工智能、大数据及云计算等技术高速发展的今天,数据中心数量以及承担的计算量大幅增长,高热密度的环境给制冷设备带来重大挑战,极小的故障率都是不可接受的。
一、把数据中心泡在“水”里
大家可能都经历过手机、电脑过热导致性能下降的情况。数据中心看起来更庞大,但其实更脆弱。散热是数据中心的头等大事,数据中心散热消耗的电能甚至可能占到总电能的1/4以上。
随着 AI、 云计算、大数据以及区块链等技术的创新发展,作为信息基础设施的数据中心及通信设备承担的计算量越来越大,对计算效率的要求也越来越高。算力的持续增加推动通讯设备性能不断提升,芯片功耗和热流密度也在持续攀升,产品每演进一代,功率密度会攀升 30-50%。目前,风冷技术(类比为吹空调)是数据中心较为成熟的冷却方案。
不过,风冷越来越不能满足数据中心的需求。
1.风冷的效率很差,且会产生冷热空气换热不均,会在服务器架之间形成局部热点;
2.为加强冷却效果,机房空调和整体服务器架的占地面积要足够大;
3.风冷设备的噪音很大,稳定性也不高,一旦发生故障后果严重。
面对风冷技术的种种问题,液冷技术逐渐走入人们视野。和风冷相比,液冷(类比为泡冷水澡)具有显著的优势,首先是散热效果好,由于冷却液和芯片直接接触,传热快速且均匀;其次,液冷能耗很低,如采用室外冷却塔,甚至可实现全年自然冷却,可节省大量能源;另外,液冷系统还具有噪音小、占地面积小等优点,液冷的整体投资成本也有竞争力。