ChatGPT标注数据比人类便宜20倍，80％任务上占优势

Pine 发自凹非寺

量子位 | 公众号 QbitAI

又一“人类饭碗”被AI抢走，还是和训练AI息息相关的：

数据标注。

苏黎世大学研究发现，在ChatGPT面前，无论成本还是效率，人类可以说是毫无优势：

成本上，ChatGPT平均每个标注成本低于0.003美元，比众包平台便宜20倍；

效率上，在相关性、立场、主题等任务中，ChatGPT也是以4:1的优势“碾压”人类。

论文发出后，有网友调侃，“生成训练数据需要人工”的说法已经成为过去式了。

还有人直呼“古籍修复数字化工作是不是有希望提速了”。

还有人看热闹不嫌事大，直接发推称：

这是直接端了平台工作者的饭碗。

话说回来，ChatGPT是怎么抢了数据标注工作者的“饭碗”的？

ChatGPT在80%任务上占优势

首先得先了解下数据标注工作的具体内容。

简单来讲，数据标注就是给社交媒体上的内容数据贴标签，将其以不同主题或者概念进行分类，或是对其立场以及情绪进行判别。

这些经过标注的数据就可以用作NLP模型的训练集或是评估标准。

以往，这类工作都是交由人工处理的，比如说MTurk就是专门进行数据标注的一个众包平台。

在MTurk这类众包平台内部，还会有更加精细的分工，比如说会有经过专业训练的数据标注者以及众包工作者。

前者在产出高质量数据上具有优势，但自然成本也更高，而后者虽然更便宜但质量也会随任务难度波动。

于是研究团队就开始着手研究大语言模型（LLM）在这方面的潜力，并且对比了没有额外训练（zero-shot）的ChatGPT（基于GPT-3.5）和MTurk在数据标注上的性能。

这项对比基于研究团队此前收集到的2382条推文样本。

ChatGPT和MTurk分别将推文以“相关性、立场、主题、政策、实用性”这五种任务进行标注。

评估的标准有两条：

准确性：ChatGPT和MTurk众包工作者相较于正确标注的百分比；

编码者间的一致性信度：用ChatGPT、MTurk众包工作者以及专业数据标注者任意二者之间的一致性来计算；

结果呢也显而易见，在准确性上，ChatGPT有五分之四的任务都要优于MTurk众包工作者。

在一致性信度上，ChatGPT全部任务都超过了专业数据标注者。

成本方面，开头也已经提过，ChatGPT平均每条比人工便宜20倍，何况AI还能24*7无休

图片新闻