首页新闻文化生活科技金融教育房产体育健康旅游汽车美食摄影图片

当前位置：江南文明网 > 科技 > 智能 >

数学论证GPT-4不是随机鹦鹉

数学论证GPT-4不是随机鹦鹉

对于ChatGPT的工作原理，一个常见的解释是根据统计学规律预测下一个词。

但最近一位叫Jacob Bayless的工程师用数学方法得出惊人结论：

若是如此，所需的信息量足以让整个宇宙都坍塌成黑洞。

这一数据量是50000^8000，根据贝肯斯坦上限(Bekenstein bound)原理，如果把这些信息分配到空间当中，所需要的信息密度已经远超宇宙能承受的最大值。

而这仅仅是把数据存储起来的消耗，更不必说还要进行运算了。

而ChatGPT与单纯统计预测的区别，可以做这样的类比：

如果天文学家通过历史观测记录推算出月食的周期，这可以算是统计学。

但当他们总结出牛顿万有引力定律的时候，就已经超越了统计学。

什么是“随机鹦鹉”

一个流传很广的说法，所谓大语言模型实际上相当于一个“随机鹦鹉”——

与我们观察其输出时的情况相反，语言模型只是将其在庞大的训练数据中观察到的语素胡乱拼接在一起，根据概率生成文本，但不清楚文字背后的任何含义，就像一个随机的鹦鹉。
出自论文On The Dangers of Stochastic Parrots: Can Language Models Be Too Big

这对过去的语言模型，或许确实成立。

比如曾经流行的n-gram算法。

比如当我们在搜索引擎中进行搜索时，出现的联想词就能用此方法实现。

具体来说，下面的三行文本中，第一行纯粹是随机生成，第二行考虑了单词在英语中整体的出现概率，第三行则考虑了单词在前一个词后面出现的概率。

n = 0: RECEIVE FALL SURPRISED FRIDAY INGREDIENT…
n = 1: REPRESENTING AND SPEEDILY IS AN GOOD…
n = 2: THE CHARACTER OF THIS POINT IS THEREFORE…

不难看出，随着n值的升高，文本越来越接近人类语言。

而n-gram模型根本不需要掌握其中的语义或理解其中的抽象概念，就能生成像模像样的句子。

据此有人猜想，GPT-4会不会也只是一种高级的n-gram呢？

Bayless提出，GPT必须学会抽象才能有如今的效果，至少GPT-4肯定如此。

图片新闻

: 1-3！巴萨吞下9年首败

: 忽然，想去湖北了！

: “黑科技”助力春耕无人作业赋新能

: 打破“数据孤岛” 多方部署加快数据要

热门

数学论证GPT-4不是随机鹦鹉

英伟达AI智能体接入GPT-4，完胜AutoGPT！

常压油箱，到底有没有问题？

一生只带一人去坐的3趟列车，看尽壮阔

广东省珠海市八大著名景点

不愧是一年四季的颜值担当

国内这6个小城市让你体验休闲旅行

温州这条险峻异常又风光绝美的山脊，

浙江又一宝藏海岛走红风景美游客却不

中国最“土豪”城市

推荐

红米放大招！120HZ+6400w+骁龙865+4500毫安，

续华为麒麟后，又一国产高端5G手机处理

为什么如今很多人宁愿一年一换千元机

诺基亚再次发布新机，晓龙765+5G+256GB，

潜行15年，从VCD到MP3再到手机总能跻身前

iPhone XR售价逼近4000元！

浪潮2020年要落地400个以上的行业AI项目

从2499降至899，摩托罗拉6+128GB中端机，却

新款iPhone SE跑分曝光，搭载A15仿生芯片

全身都是屏的小米手机，推迟3个月还没