该提示是 2022 年选择用于测试各种大型语言模型(LLMs)能力的 204 个任务之一——ChatGPT 等 AI 聊天机器人背后的计算引擎。最简单的 LLMs 产生了超现实的反应。
「这部电影是一部关于一个男人的电影。」一个简单模型开始说道。中等复杂度的模型的答案接近了,猜测表情符号电影。但最复杂的模型在一次猜测中就成功了:《海底总动员》。
「尽管试图期待惊喜,但我对这些模型可以做的事情感到惊讶。」帮助组织测试的谷歌研究院计算机科学家 Ethan Dyer 说。令人惊讶的是,这些模型应该有一个指令:接受一串文本作为输入,并预测接下来会发生什么,一遍又一遍,完全基于统计数据。计算机科学家预计,扩大规模会提高已知任务的性能,但他们没想到这些模型会突然处理这么多新的、不可预测的任务。
Dyer 所做的一项近期调查表明,LLMs 可以产生数百种「涌现」能力——大型模型可以完成而小型模型无法完成的任务,其中许多似乎与文本分析无关。它们的范围从乘法到生成可执行的计算机代码,再到显然是基于表情符号解码电影。
新的分析表明,对于某些任务和某些模型,存在一个复杂性阈值,超过该阈值,模型的功能就会猛增。(他们还提出了一个黑暗的反面:随着复杂性的增加,一些模型在他们的反应中揭示了新的偏见和不准确之处。)
斯坦福大学计算机科学家 Rishi Bommasani 说:「在我所知道的任何文献中,从未讨论过语言模型可以做这些事情。」去年,他帮助编制了一份包含数十种突发行为的清单,其中包括 Dyer 项目中确定的几种行为。该列表继续增长。
现在,研究人员不仅竞相确定额外的突发能力,而且还想弄清楚它们发生的原因和方式——本质上是试图预测不可预测性。理解涌现可以揭示围绕人工智能和机器学习的深层问题的答案,比如复杂模型是否真的在做一些新的事情,或者只是变得非常擅长统计。它还可以帮助研究人员利用潜在的好处并减少紧急风险。
AI 初创公司 Anthropic 的计算机科学家 Deep Ganguli 说:「我们不知道如何判断哪种应用程序会产生危害,是顺利发生还是不可预测。」
The Emergence of Emergence
生物学家、物理学家、生态学家以及其他科学家使用「涌现(Emergence)」一词来描述当大量事物作为一个整体行动时出现的自组织集体行为。无生命原子的组合产生了活细胞;水分子产生波浪;八哥的低语以不断变化但可识别的模式掠过天空;细胞使肌肉运动和心脏跳动。
至关重要的是,涌现能力出现在涉及许多独立部分的系统中。但研究人员直到最近才能够在 LLMs 中记录这些能力,因为这些模型已经发展到巨大的规模。
语言模型已经存在了几十年。直到大约五年前,最强大的还是基于所谓的循环神经网络。这些基本上采用一串文本并预测下一个单词是什么。使模型「循环」的原因在于它从自己的输出中学习:它的预测反馈到网络中以提高未来的性能。
2017 年,Google Brain 的研究人员推出了一种称为 Transformer 的新型架构。当循环网络逐字分析句子时,Transformer 会同时处理所有单词。这意味着 Transformer 可以并行处理大量文本。
通过增加模型中的参数数量以及其他因素,Transformers 能够快速扩大语言模型的复杂性。这些参数可以被认为是单词之间的连接,并且模型通过在训练期间通过文本搅动时调整这些连接来改进。模型中的参数越多,它就能越准确地建立联系,它就越接近于模仿人类语言。正如预期的那样,OpenAI 研究人员在 2020 年进行的一项分析发现,模型随着规模的扩大而提高了准确性和能力。