自ChatGPT爆火之后,AI大模型的研发层出不穷,不同种类的AI大模型也相继推出,国内俨然已掀起狂热的百模大战。
作为革命性的数据模型,ChatGPT带来的惊喜不仅仅是内容生产方式的变化,更让业界看到了通用人工智能的希望,推动AI大模型和新应用不断涌现。有专家称,未来人工智能研究将有八九成将转向大模型,我们正奔向大模型时代。
曾经算力、数据、算法是传统AI的三要素,共同造就了人工智能的广泛应用。但伴随着通用人工智能时代(AGI)到来,海量数据需要进行大量的训练和优化,以达到更高的预测准确性和泛化能力,对算力的需求早已不可同日而语。
在大模型如火如荼之际,算力供给与需求之间存在的巨大“鸿沟”仍在放大,如何解决算力“焦虑”已成为产业界着力的新目标。
算力缺口巨大
基于Transformer结构的大模型要不断优化,就需要越来越巨量的参数“投喂”,由于训练的参数量级的增长,致使算力需求也量级增长,算力集群正变得愈发庞大。
以ChatGPT为例,仅就算力而言,OpenAI为了训练ChatGPT,构建了由近3万张英伟达V100显卡组成的庞大算力集群。以半精度FP16计算,这是一个将近4000P的算力集群。
有消息称,GPT-4达到了100万亿的参数规模,其对应的算力需求同比大幅增加。数据显示,大模型参数数量的增长与算力的平方成正比。
随着投身AI大模型的公司如雨后春笋般涌现,再加上围绕大模型的人工智能生态和由此产生的用于推理的算力需求,未来的算力缺口将更加惊人。
显然,算力是否充足将决定各公司大模型产品的成败。天数智芯产品线总裁邹翾认为,对头部企业来说,早期的GPT大模型大概需要1万张的英伟达GPU,但迭代的大模型或至少需要数千张最先进的GPU才能完成。随着这一领域出现众多的跟随者,对于跟随企业来说,势必要在算力上不能输于头部企业,甚至还要进行更多的算力基础设施投资才能实现追赶。
壁仞科技系统架构副总裁丁云帆在人工智能行业盛会——北京智源大会发表《基于高性能通用GPU打造国产大模型训练系统》的演讲时指出,ChatGPT的成功要素在于工程和算法的协同创新,数据是燃料也是基础,特别是高质量的数据;算法发挥引擎的作用;算力则是加速器,不止涉及超大GPU集群,存储与网络集群也至关重要。