使用全球40年的天气数据,用200张GPU卡进行预训练,2个月左右的时间,训练出了参数量达亿级的盘古气象大模型。
这是清华大学毕业3年的毕恺峰训练大模型的故事。
不过,从成本上看,按照正常情况下,一张GPU 7.8元/小时计算,毕恺峰盘古气象大模型的训练成本可能超出200万。这还是气象领域的垂直大模型,如果训练的是通用大模型,成本可能要翻百倍。
有数据统计,中国当下10亿参数规模的大模型已经超百个。然而行业蜂拥而上的大模型“炼丹”却面临着高端GPU一卡难求的无解题。算力成本高企,缺算力、缺资金也成为了摆在行业面前最直观的问题。
高端GPU,有多缺?
“缺,当然缺,但是我们能有什么办法。”某大厂高管被问及是否缺算力问题时脱口而出。
这似乎已经成了行业公认的一道无解题,顶峰时期一张英伟达A100的价格已经被炒到了二三十万人民币,单台A100服务器的月租价格也飙到了5万-7万/月。但是即便如此,高昂的价格依然可能拿不到芯片,一些算力供应商也遇到过供应商跳票等之前很难遇到的奇葩经历。
一位云计算行业高管周立军也谈及类似的感受:“算力短缺的情况确实存在。我们有很多客户都想要高端GPU资源,但能提供的也暂时无法完全满足广泛的市场需求。”
某云服务商搭载A100的高性能计算集群售罄界面
事实证明,高端GPU的短缺短期内在全行业都无解。大模型爆发,市场对算力的需求快速增长,但供给量增速远远没有跟上。虽然算力供给长远来看一定会从卖方市场进入买方市场,但这个时间究竟要多久,也是个未知。
各家都在盘算着自己手里有多少“货”(英伟达GPU),甚至用这个来判断市场份额。比如手里如果接近1万张卡,市场总共是10万张卡,那份额就是10%。“到年底保有量大概到4万,如果市场是20万的,那可能占20%的市场。”知情人士举例表示。
一边是买不到卡,一边是大模型训练门槛并没有业界烘托的那么容易“入门”。上述提到,毕恺峰盘古气象大模型的训练成本可能超出200万。但需要注意的是,毕恺峰盘古气象大模型是在盘古通用大模型的基础上训练出得垂直大模型,它的参数为亿级。如果要训练一款十亿规模参数或者更大规模的通用大模型,那么成本可能要十倍、百倍往上加。
“目前投资规模最大的是在训练,没有几十亿的资本投入,很难下场去持续做大模型。”腾讯集团副总裁、云与智慧产业事业群COO、腾讯云总裁邱跃鹏透露。
“跑得要快,至少在钱烧完之前能有成果拿到下一轮‘融资’。”一位创业者描述当下大模型“战况”,“这条路是条绝路。如果你没有百亿千亿资金在后边撑着,很难走得通。”