MIT：GPT-4能自我纠错代码 GPT-3.5却不行

MIT、微软的研究发现，GPT-4能够自我纠正错误代码，GPT-3.5却不行。无独有偶，其他研究也表明，似乎只有「成熟」的大模型才具备涌现能力。背后的原因竟是因为……

我们都知道，大语言模型在生成代码方面，表现出了非凡的能力。然而，在具有挑战性的编程任务（比如竞赛和软件工程师的面试）中，它们却完成得并不好。

好在，很多模型会通过一种自修复工作流来「自省」，来自我纠正代码中的错误。

研究者很希望知道，这些模型在多大程度上能提供正确的反馈，并且说明自己生成的代码为什么是错误的。

近日，MIT和微软的学者发现，在对GPT-4和GPT-3.5，只有GPT-4表现出了有效的自修复。并且，GPT-4甚至还能对GPT-3.5生成的程序提供反馈。

论文地址：https://arxiv.org/abs/2306.09896

爱丁堡大学博士生符尧表示，自己的团队也发现了类似结果——只有GPT-4能够自我改进，而较弱的模型则不能。

也就是说，只有当模型足够「成熟」（规模大且对齐良好）时，可能存在一种新的「涌现能力」（即在自然语言反馈的基础上改进）。

图片新闻