人工智能越大型越好吗？

随着人工智能的生成模型越来越大、越来越强，一些科学家开始提倡更简洁，能效更高的系统。

可以生成流畅语言的人工智能系统，例如OpenAI的ChatGPT，是技术界的新宠。但是当它们遇到需要一些推导的数学问题时，这些大型语言模型（LLM）就常常会犯错。比如说这个代数题吧：

一条直线与y=4x+6平行且经过(5, 10)。它和y轴的交点的纵坐标是多少？

虽然LLM有时候能给出正确答案，答错的情况更多。在早期的推导能力测试中，ChatGPT面对中学水平的“数学”题集时只答对了26%[1]。

这是可以想见的：给定输入文本之后，LLM只会根据模型训练集中词语、符号和句子的统计规律生成新的文本。要是学习语言模式就能让LLM稳定模仿出数学推导，那才是怪事呢。

但在2022年6月，Google做的一款叫作Minerva的LLM多少算是突破了这种预期。Minerva在数学题集中答对了50%[2]，这一结论让一些人工智能（AI）领域的研究者们大为吃惊。（见“Minerva的数学考试”）

Minerva的数学考试：

一个称为Minerva的大语言模型在“数学”数据集（中学水平的数学题）中得分50%。下面是它答对和答错的两题。（在Google Research’s interactive explorer可见更多例子：https://minerva-demo.github.io/#category=Algebra&index=1）

图片新闻

人工智能越大型越好吗？

人工智能越大型越好吗？

图片新闻

热门

推荐