随着GPT的爆火,生成式AI正式进入全球科技舞台的中央,大模型也已经成为当下最“in”的话题。
用“百模大战”来形容当下大模型的火热程度一点也不夸张。据目前市场已公布的大模型产品来看,10亿参数规模以上的大模型产品已多达80个。
一些企业更是将大模型视为人工智能的核心,认为这很可能是引领第四次工业革命的颠覆性创新技术,将推动各个行业的变革。
不过大模型已不再是你以为的“大力出奇迹”,它的发展正在迎来一些微妙的变化——
Smaller is Better。
这并非是无中生有,此话正是出自HuggingFace首席布道师Julien Simon。
但纵观大模型(尤其是大语言模型,以下简称为:LLM)的发展,参数体量逐渐庞大似乎成为了一种大趋势,动辄便是千亿甚至万亿的量级:
那么Simon如此“背道而驰”的观点,又是从何而来?
我们都知道模型的参数体量越大,它们从大量非结构化数据中学习的表现通常就会越出众,但随之而来的一个老大难问题便是需要大量的计算能力。
这也就是为什么现在人们谈及大模型时,往往都绕不开“大算力”的原因。
(甚至连OpenAI的CEO也在为算力发愁……)
因此,Simon给出了新的解法,让大模型“瘦身”(Smaller)的同时还能提高效率(Better)。