实探百度智能云海口数据标注基地，揭秘让文心一言变聪明的幕后功臣

智东西8月24日报道，今日，智东西记者来到百度智能云（海口）人工智能基础数据产业基地，并亲身体验大模型数据标注工作。

据工作人员介绍，百度智能云海口数据标注基地的现有数据标注师共两三百人。区别于其他基地90%为大专学历，承接大模型标注工作的海口基地100%为本科学历，由此拉动本科应届毕业生的就业机会，为区域人才留存提供助力。

数据、算法、算力是人工智能（AI）三要素，随着AI商业化落地进程加快以及应用场景不断拓展，市场对海量、优质数据的需求持续增加。这些数据中，80%都是以文件形式存在的非结构化或半结构化数据，必须经过清洗与标注处理，才能变成机器可理解、可学习的数据。

进入AI大模型时代，数据标注的质量会影响大模型的“智商”，比如影响到文心一言、ChatGPT等大型语言模型回复内容是否准确、精简、逻辑清晰。与传统模型标注不同，大模型数据标注需要一套全新的标注组织形式。

传统数据标注门槛较低，像给图片里的猫、狗、人、车等标注上文字，或者标注某一段话是正面/负面/普通情绪，是什么就打上什么标签，规则偏客观，比较容易上手。

相比之下，大型语言模型的数据标注就难多了，毕竟是跟文字、代码等文本内容打交道，要求数据标注师具备一定的判断能力、理解能力、思辨能力、总结能力和汉语言文学功底，结合用户提出的问题，给大模型生成的文本回答进行打分。

比如，用户提问“北京哪里好玩”，数据标注师要判断大模型生成的答案是否切合问题、符合事实、逻辑正常、符合社会主义核心价值观、没有重复啰嗦的语病、结合前文信息等等。

图片新闻