昇腾AI“点燃”首个普惠算力底座

大模型在抹平 AI 模型底层架构多样性的同时，也在悄然抹去城区之间的差异。

站在北京石龙经济开发区 20 号院，很难将这里与京西地区百年钢铁史、千年采煤史联系起来。曾是一代又一代人集体记忆的铁花飞溅、机械轰鸣，如今已化作蔚然成风的「京西智谷」。

2 月，大模型「炼丹炉」—北京市门头沟区与中关村发展集团、华为技术有限公司共建的北京昇腾人工智能计算中心（以下简称计算中心）在 20 号院内正式点亮。6 月，首批上线运营人工智能训练算力规模 100P。

在今年企业争抢算力大背景下，在坐拥全国近三分之一人工智能企业、打响大模型创业「第一枪」的北京，它是第一个面向中小企业提供普惠算力的人工智能训练算力平台。

7 月，计算中心又成为北京第一个拿到「国智牌照」的「新一代人工智能公共算力开发创新平台」，跻身国家人工智能算力发展战略体系。

夯实的基座：算力「大」且「稳」

走进一楼计算中心机房，原以为巨大房间里会屹立几座哄哄作响的「铁皮疙瘩」，结果出乎意料：一间仅 50 平米「小户型」，里面只有一台 Atlas 900 AI 集群（ Atlas 900 PoD ）。

一个集群共有 8 台机柜，中间五台是核心计算设备，每个机柜里塞进了八个计算节点，是 100P 真正来源。最左边两个柜子其实是液冷分配器，决定液冷水输往哪个管道。最右边两个机柜负责高性能卡之间快速通信。

100P 是什么概念？1P 相当于每秒可进行一千万亿次运算，100P 大约相当于五万台高性能电脑的算力。就计算精度而言，100P 是指半精度（ FP16 ）算力。

大模型时代有一个明显趋势，企业都是基于一些开源模型做微调，包括二次训练。「他们会跟我们要两个节点。几十亿参数规模的模型，一到两天就能训练完毕。」北京昇腾人工智能生态创新中心 CTO 杨光介绍说，计算中心目前有四十个节点，按照一家企业需要两个节点来算，可以同时服务二十多家。

绕到机柜身后，触摸背后的液冷门，感觉冰凉，大概只有十几个度。打开厚重的液冷门，依然可以感到热风袭来。只见每台服务器背后都有不少细长管子，直接通到服务器里：

从底部上来的液冷水经由这些管道与服务器进行热交换，带走热量，使温度下降，升温的液冷水回到冷却塔后，恢复以往温度。

整个过程都被封闭在液冷门里，关上门后，外面只剩嗖嗖的凉意。

得益于液冷技术，一台机柜可以塞进八个计算节点，传统运营商的一个机柜通常只能放一台，计算中心 PUE 也做到了 1.15（多数地方要求是 1.2 以下）。

目前使用到中心算力的企业大概有 36 家，算力使用率的峰值可以到 80%。长远来看，100P 只能算「起步价」，「企业业务对应到算力需求都很大。」北京格灵深瞳信息技术股份有限公司副总经理周瑞告诉我们，「像我们这样的企业，未来都是几倍的算力需求。」

今年，计算中心算力规模将达到 400P，并持续扩容至 1000P。100P 算力集群内置 320 张卡，以此类推，400P 算力集群将有 1200 多张卡，1000P 集群卡数将猛增到 3200 张。卡的数量激增，工程复杂度也会呈指数级增长，这对算力集群高可用性提出巨大挑战。

比如，模型训练一个多月，已经完成 99%，突然有张卡出现故障，一切只能从头再来。高性能卡之间的通信问题、训练时无法快速调度到足够算力资源也常常导致训练断掉，之前的努力付诸东流。

图片新闻