日月如流,时过境迁,从地下汩汩涌起的黑色石油,到由“0”与“1”组成的数据,工业革命以来人类社会最受关注的生产要素,已经悄然发生转变。数字变革的“雄心”已经浮出水面,正对人类经济社会发展的传统秩序发起挑战。
在这场变革中,每个人都是主角。沿着电子信息产业摩尔定律的主线,云计算、大数据、物联网、人工智能、互联网、5G等新兴信息技术不断发展,每个人都得以接入信息网络,每个行为都留下“数字足迹”,风过留声,雁过留痕。据IDC《数据时代2025》预测,全球数据量将从2018年的33ZB(Zettabyte,十万亿亿字节)暴增至2025年的175ZB,增长超过5倍,相当于约2000亿个1TB硬盘的容量总和。
随着数据总量的数量级增长,数据结构也进一步复杂化,数据与数据之间的耦合性加深,从点状孤立数据到时间序列数据再到立体网状数据,数据系统将有望产生“涌现”的特性(复杂系统中产生的更高维度的新颖的、连贯的结构、模式和性质),数据的价值也将呈现出梅特卡夫定律(网络的价值与网络内的节点数的平方正相关)。
对于当前如此庞大的数据体量,人脑已经无能为力,必须依靠人工智能算力算法的暴力计算,数据的价值才得以充分挖掘和释放。例如,谷歌与柏林工业大学团队与今年3月发布史上最大的通用AI模型“PaLM-E”,其参数量高达5620亿,是GPT-3模型参数量的3倍有余,通过海量数据的投喂和模型训练,具备图像理解、语言生成、指令执行的“类人智慧”。
数据量的增加、处理数据的能力的提升,使得数字经济在社会经济发展中扮演着愈发重要的角色。根据中国信息通信研究院《全球数字经济白皮书(2022年)》,2021年全球47个国家数字经济增加值达38.1万亿美元,同比增长15.6%,在后疫情时代,全球经济复苏面临着严峻的挑战,数字经济的增长韧性与其对传统经济、实体经济发展的引擎带动效应更为凸显,数字经济成为了经济“加速器”和“压舱石”。
大力发展数字经济亦是中国自上而下的国家战略。
2023年2月,中共中央、国务院印发了《数字中国建设整体布局规划》,完善了发展数字经济的顶层设计,国家数据局的组建也将加强数字经济发展的制度保障。
总而言之,数字经济将深刻重塑社会经济的发展模式,其在信息时代的革命性与战略性意义已不言而喻。
时代已然来临,各种秉赋也都渐次完备,但数字经济的腾飞仍面临一块最大的绊脚石——数据要素确权。如果寻找到这一难题的解决方案,无疑将推动中国在全球数字化竞争中占得先机。
01
数据要素确权的意义与困境
人类对生产要素的认识,是伴随着经济形态的发展升级而螺旋式上升的。在不同的经济形态下,各生产要素的地位不同,生产要素的组合也有着不同的范式。
农业经济时代,土地和劳动力的结合是最基本和原始的生产模式,但地球上土地的供给是有限的,经济增长主要依靠劳动力人口的增长;工业经济时代,随着产业体系的健全和科技的进步,机器生产逐渐代替人工劳作,对生产效率的追求使得资本和技术的组合得到更多的关注;而在数字经济时代,传统生产要素的发展与积累已进入成熟期,数据要素得以逐渐被承认和重视。
传统生产要素的供给和增长都是有限的,而数据特殊的“无限性”、对生产要素组合关系的重塑能力、对生产效率的乘数效应,给了人们更大想象空间。数据要素之于数字经济,就好比石油之于工业经济,数据要素是数字经济的原料、动力与核心,也是数字经济时代的重要财产客体。根据科斯定理,只要财产权是明确的,并且交易成本为零或很小,那么无论最开始财产权是怎么分配的,最终市场均衡结果都是有效率的,是资源配置的帕累托最优状态。反之,财产权的模糊必将带来争议与纠纷,使得资源交易流通无从谈起,甚至造成社会福利损失。
对于数据要素而言,也是一样的道理,广义的数据确权既包含数据权属的划分,也包含数据权利的授予。数据确权是数据交易流通的保障,数据确权机制不清晰不完善,对建立统一的数据要素市场,对激活数据要素内蕴价值必然会造成阻碍,而这也是“数据孤岛”“数据垄断”等问题的症结。
问题的关键在于,数据要素与传统要素相比有着迥异的特性,数据权属不像传统生产要素那样清晰明确,从数据的生产到数据的价值实现有着较大的复杂性与模糊性,个人、企业、政府似乎都参与了数据的生产,都可以从数据收益之中分一杯羹,但如何分配最能兼顾效率与公平则尚无定论,学界和业界从经济学、法学、公共管理等视角出发都有着较多的阐述与争论,数据要素确权面临着复杂的现实困境。
数据要素特性。资料来源:作者梳理
难点一:数据要素的生成与价值实现涉及复杂的主体和环节。
数据要素生成的“元模式”很简单,只需要一个信息源、一个数据采集者、一个数据存储者。其中,采集和存储往往由同一个主体完成,或者是数据采集者通过购买、租赁市场通用的数据存储服务来完成。如果遵循这最基本的数据生成模式,则数据确权只需要在信息源和数据采集者两个主体之间协商即可。
但事情的不简单在于数据要素具有的价值稀疏性、价值未知性、分散性(碎片化性)等特性,直接采集得到而未经浓缩精炼、分析加工的数据往往是价值低且价值模糊的,同时也不是一般情况下数据要素的最终存在形态。实际上,数据的采集者、传输者、存储者、清洗者、标注者等等数据“后道工序”的参与主体都可以归类为广义的“数据加工者”。
如果承认数据加工在数据要素价值实现过程之中的常见性与必须性,承认数据加工所需的人工成本(算法研发、数据处理)、固定资本成本(服务器、计算机、传感器)等成本的投入不菲,那么自然会产生一个问题,那就是数据加工者能否参与数据产权的分配?因此,数据加工者对于数据要素产权的权益请求,其实是数据确权中重要而基本的问题。
以朴素的经验视角来看,没有激励,就缺乏动力,信息提供者、数据加工者对于数据要素的价值实现都有着不可或缺的贡献,理应都分得一杯羹,但问题的关键是应该如何分割。政治经济学与马克思主义经济学从资本循环角度对其做出了解释,而西方经济学则更侧重于对于建立可实现的协商分配机制。
可以将数据要素的加工与工农业原材料的加工进行类比,共同之处是数据要素和原材料都通过加工实现了价值增长。原材料的拥有者提供原材料,加工者投入其他生成要素对原材料进行加工,生产出更有价值的产品,常见的模式是“买断制”,加工者向原材料拥有者以一定的价格买入原材料,加工后的额外收益均归属于加工者所有,与原拥有者无关。
看起来,数据要素似乎也可以采取简单直接的“买断制”,但背后的逻辑缺陷是,一般的有形物品的拥有者预期的转让费用,其实已经包含了对加工者如何处置该物品以及能获得多少收益的合理预期,但数据要素的“买断”是无法预料其加工后的价值增长空间的(有可能是数千倍甚至更多的增长);同时,也难以预估加工者对数据加工处理的模式(是否会进行二次传播、进行数据篡改和扭曲)。
难点二:数据要素侵权难以识别与追溯。
与“买断制”相对的是“授权制”,“授权制”常常应用于技术专利、知识产权这类需要通过法律保障排他性(独占性)的生产要素。从这一维度而言,数据要素有着相似之处,其采取“授权制”比“买断制”更具合理性。
例如,迪士尼给玩具生产商进行商标授权,可以很清晰地计算出生产了多少个玩偶,总营收是多少,以及从中获得利润分成,并且可以起诉未经授权使用迪士尼品牌标识的山寨厂家。类似地,某项专利的拥有者也可以对某一企业进行一定期限内的专利授权,并且对未经授权或授权过期而采取相似技术路径的厂商展开侵权诉讼。
之所以商标和专利可以授权,往往是其具有整体性,商标是系列特殊文字图标的组合,专利则涉及独特的工艺、装置或配方,比较容易进行侵权识别。但是,数据要素具有无限复制性,其传播与使用则具有隐秘性,很难确认被授权方基于数据要素而获得的收益,也很难对是否使用了某一特定数据要素进行判别。
例如,消费者在使用甲App进行视频浏览时,授权平台采集自己的浏览记录用于智能算法推荐,甲App在未经消费者进一步授权的情况下,将数据共享给网购平台乙App而从中牟利,这显然违法违规。在现实生活中这样的现象是屡见不鲜的,但对侵权方的诉讼与取证往往有着不小的难度。而如果难以识别和定义数据要素侵权的行为,没有相应的追责方法和机制,那么数据要素“授权制”将会成为空谈。
难点三:数据要素的产权分配往往没有经过事先约定或存在强迫行为。
上面讨论的“买断制”与“授权制”,其前提是信息提供者已经对数据要素生成与数据产权有着清醒的认识,与数据采集者、加工者提前进行协商。但日常生活中,大多数数据要素的产生是在信息提供者无意识的状态下进行的,很多情况下生成的数据要素也是其他活动的副产品(例如用户浏览短视频、网购页面产生的数据),数据采集者、加工者并不需要与信息提供者充分协商,对于数据要素的产权分配自然更是没有事先约定。
更有甚者,数据采集者和信息提供者往往存在着势力失衡,信息提供者被迫进行授权。例如,由于互联网天然的网络效应,某些垂直领域的互联网平台企业往往有着高度集中的市场份额,消费者如果想要获取相应的服务,在注册成为用户这一阶段必须同意一长串信息授权的“霸王条款”,否则就无法进行下一步操作,这是一种“数据霸权”。而正因为数据要素的产权分配没有经过事先约定或存在强迫行为,则很有可能造成了信息提供者意思表示的失真和扭曲,从而导致数据产权分配在后期的纠纷与争议。