智东西8月24日报道,今日,智东西记者来到百度智能云(海口)人工智能基础数据产业基地,并亲身体验大模型数据标注工作。
据工作人员介绍,百度智能云海口数据标注基地的现有数据标注师共两三百人。区别于其他基地90%为大专学历,承接大模型标注工作的海口基地100%为本科学历,由此拉动本科应届毕业生的就业机会,为区域人才留存提供助力。
数据、算法、算力是人工智能(AI)三要素,随着AI商业化落地进程加快以及应用场景不断拓展,市场对海量、优质数据的需求持续增加。这些数据中,80%都是以文件形式存在的非结构化或半结构化数据,必须经过清洗与标注处理,才能变成机器可理解、可学习的数据。
进入AI大模型时代,数据标注的质量会影响大模型的“智商”,比如影响到文心一言、ChatGPT等大型语言模型回复内容是否准确、精简、逻辑清晰。与传统模型标注不同,大模型数据标注需要一套全新的标注组织形式。
传统数据标注门槛较低,像给图片里的猫、狗、人、车等标注上文字,或者标注某一段话是正面/负面/普通情绪,是什么就打上什么标签,规则偏客观,比较容易上手。
相比之下,大型语言模型的数据标注就难多了,毕竟是跟文字、代码等文本内容打交道,要求数据标注师具备一定的判断能力、理解能力、思辨能力、总结能力和汉语言文学功底,结合用户提出的问题,给大模型生成的文本回答进行打分。
比如,用户提问“北京哪里好玩”,数据标注师要判断大模型生成的答案是否切合问题、符合事实、逻辑正常、符合社会主义核心价值观、没有重复啰嗦的语病、结合前文信息等等。