大模型时代到来,以数据为中心的AI开发模式加速走向台前,数据的价值从未向今天这样被充分挖掘——
大模型从训练到部署应用迭代,AIGC众多垂直场景落地,通用智能、具身智能等前沿领域探索,都与高质量、专业化的场景数据密不可分。
作为底层基础服务,数据标注也从未像今天这样受到关注,但与此同时机遇与挑战随之而来。
数据标注要求从客观到主观,标准如何统一?标注人才要求又有什么样的新变化?
大模型公司/AI企业涌入赛道,专业数据服务厂商如何自处?
合成数据作为新兴赛道,又有怎样的增长空间?
带着这些问题,量子位智库《中国AIGC数据标注产业全景报告》由此而来,并尝试解答。
报告中,量子位智库将从我国数据标注行业现状、四大关键变化、三大影响要素、行业发展及市场规模等多角度、多方向地全面立体描绘中国数据标注产业全景。
核心观点如下:
数据标注服务贯穿大模型全生命周期,上下游合作关系更为紧密耦合;
大模型范式涌入数据标注,自动化标注效率进一步提升;
标注人才高学历多领域成硬指标,缺口或达百万;
产业链重构,专业数据服务商更多机会将在垂直领域,帮助企业私有化部署;
传统依靠渠道人力等因素聚合飞轮效应已失效,数据标注朝着知识密集型转移;
国内市场规模将达百亿量级,合成数据增速最高。
大模型时代下的数据标注
数据标注,是将原始数据进行加工处理,比如分类、拉框、注释、标记等操作,转换成机器可识别信息的过程。
国内数据标注厂商,广义也被叫做基础数据服务商,通常需要完成数据集结构/流程设计、数据处理、数据质检等工作,为下游客户提供训练数据集、定制化服务。这也是本次主要研究对象。
大模型时代到来,数据标注受到前所未有的关注。
上市公司股价狂飙,创业代表公司融资加速。
国内唯一一家AI数据上市公司海天瑞声受到ChatGPT热潮,今年2月以来股价曾一度狂飙。创业公司也同样融资进展频频,包括像星尘数据、标贝科技、整数智能、柏川数据、曼孚科技、恺望数据等代表公司均获得新融资。
大模型数据解决方案多处开花,以一站式、定制化服务为主
围绕大模型开发全生命周期(包括预训练、监督微调、RLHF、基准测试等),专业数据服务商、大模型企业、AI公司等各方都拿出相关数据解决方案。