对于ChatGPT的工作原理,一个常见的解释是根据统计学规律预测下一个词。
但最近一位叫Jacob Bayless的工程师用数学方法得出惊人结论:
若是如此,所需的信息量足以让整个宇宙都坍塌成黑洞。
这一数据量是50000^8000,根据贝肯斯坦上限(Bekenstein bound)原理,如果把这些信息分配到空间当中,所需要的信息密度已经远超宇宙能承受的最大值。
而这仅仅是把数据存储起来的消耗,更不必说还要进行运算了。
而ChatGPT与单纯统计预测的区别,可以做这样的类比:
如果天文学家通过历史观测记录推算出月食的周期,这可以算是统计学。
但当他们总结出牛顿万有引力定律的时候,就已经超越了统计学。
什么是“随机鹦鹉”
一个流传很广的说法,所谓大语言模型实际上相当于一个“随机鹦鹉”——
- 与我们观察其输出时的情况相反,语言模型只是将其在庞大的训练数据中观察到的语素胡乱拼接在一起,根据概率生成文本,但不清楚文字背后的任何含义,就像一个随机的鹦鹉。
出自论文On The Dangers of Stochastic Parrots: Can Language Models Be Too Big
这对过去的语言模型,或许确实成立。
比如曾经流行的n-gram算法。
比如当我们在搜索引擎中进行搜索时,出现的联想词就能用此方法实现。
具体来说,下面的三行文本中,第一行纯粹是随机生成,第二行考虑了单词在英语中整体的出现概率,第三行则考虑了单词在前一个词后面出现的概率。
- n = 0: RECEIVE FALL SURPRISED FRIDAY INGREDIENT…
n = 1: REPRESENTING AND SPEEDILY IS AN GOOD…
n = 2: THE CHARACTER OF THIS POINT IS THEREFORE…
不难看出,随着n值的升高,文本越来越接近人类语言。
而n-gram模型根本不需要掌握其中的语义或理解其中的抽象概念,就能生成像模像样的句子。
据此有人猜想,GPT-4会不会也只是一种高级的n-gram呢?
Bayless提出,GPT必须学会抽象才能有如今的效果,至少GPT-4肯定如此。