大模型在抹平 AI 模型底层架构多样性的同时,也在悄然抹去城区之间的差异。
站在北京石龙经济开发区 20 号院,很难将这里与京西地区百年钢铁史、千年采煤史联系起来。曾是一代又一代人集体记忆的铁花飞溅、机械轰鸣,如今已化作蔚然成风的「京西智谷」。
2 月,大模型「炼丹炉」—北京市门头沟区与中关村发展集团、华为技术有限公司共建的北京昇腾人工智能计算中心(以下简称计算中心)在 20 号院内正式点亮。6 月,首批上线运营人工智能训练算力规模 100P。
在今年企业争抢算力大背景下,在坐拥全国近三分之一人工智能企业、打响大模型创业「第一枪」的北京,它是第一个面向中小企业提供普惠算力的人工智能训练算力平台。
7 月,计算中心又成为北京第一个拿到「国智牌照」的「新一代人工智能公共算力开发创新平台」,跻身国家人工智能算力发展战略体系。
夯实的基座:算力「大」且「稳」
走进一楼计算中心机房,原以为巨大房间里会屹立几座哄哄作响的「铁皮疙瘩」,结果出乎意料:一间仅 50 平米「小户型」,里面只有一台 Atlas 900 AI 集群( Atlas 900 PoD )。
一个集群共有 8 台机柜,中间五台是核心计算设备,每个机柜里塞进了八个计算节点,是 100P 真正来源。最左边两个柜子其实是液冷分配器,决定液冷水输往哪个管道。最右边两个机柜负责高性能卡之间快速通信。
100P 是什么概念?1P 相当于每秒可进行一千万亿次运算,100P 大约相当于五万台高性能电脑的算力。就计算精度而言,100P 是指半精度( FP16 )算力。
大模型时代有一个明显趋势,企业都是基于一些开源模型做微调,包括二次训练。 「他们会跟我们要两个节点。几十亿参数规模的模型,一到两天就能训练完毕。」北京昇腾人工智能生态创新中心 CTO 杨光介绍说,计算中心目前有四十个节点,按照一家企业需要两个节点来算,可以同时服务二十多家。
绕到机柜身后,触摸背后的液冷门,感觉冰凉,大概只有十几个度。打开厚重的液冷门,依然可以感到热风袭来。只见每台服务器背后都有不少细长管子,直接通到服务器里:
从底部上来的液冷水经由这些管道与服务器进行热交换,带走热量,使温度下降,升温的液冷水回到冷却塔后,恢复以往温度。
整个过程都被封闭在液冷门里,关上门后,外面只剩嗖嗖的凉意。
得益于液冷技术,一台机柜可以塞进八个计算节点,传统运营商的一个机柜通常只能放一台,计算中心 PUE 也做到了 1.15(多数地方要求是 1.2 以下)。
目前使用到中心算力的企业大概有 36 家,算力使用率的峰值可以到 80%。长远来看,100P 只能算「起步价」,「企业业务对应到算力需求都很大。」北京格灵深瞳信息技术股份有限公司副总经理周瑞告诉我们,「像我们这样的企业,未来都是几倍的算力需求。」
今年,计算中心算力规模将达到 400P,并持续扩容至 1000P。100P 算力集群内置 320 张卡,以此类推,400P 算力集群将有 1200 多张卡,1000P 集群卡数将猛增到 3200 张。卡的数量激增,工程复杂度也会呈指数级增长,这对算力集群高可用性提出巨大挑战。
比如,模型训练一个多月,已经完成 99%,突然有张卡出现故障,一切只能从头再来。高性能卡之间的通信问题、训练时无法快速调度到足够算力资源也常常导致训练断掉,之前的努力付诸东流。