一文读懂：数据的五个特征、三道难题

来源: 虎嗅网　发布于：2023-06-05 22:14:49

本文来自微信公众号：腾讯研究院（ID：cyberlawrc），作者：闫德利（腾讯研究院资深专家），原文标题：《数据的五个特征、三道难题、一种自大》，头图来自：unsplash

“数据是新石油”（Clive Humby，2006）。如果一定要找出一样，数据最像的还真是石油。两者都是重要的战略资源，都是驱动世界的动力。但数据只是数据，它不是其它任何东西。

五个特征

【资料图】

数据是一种客观存在，是关于事物的事实描述，可通过测量、记录、发现等方式去获得。数据具有无限性、易复制性、非均质性、易腐性和原始性五个特征。

（1）无限性。与实物不同，数据不会因使用而耗尽，反而是因使用而产生，会不断被创造，会越来越多。“数据将成为最基本的客观产物，无论做什么，我们都在产生数据”（Paul Sonderegger，2017）。根据DASA R&T《2016-2045年新兴科技趋势》，全球新产生的数据量大约每两年翻一番。这堪称大数据摩尔定律，数据大爆炸是必然。

（2）易复制性。数据可以快速地以近乎零成本的方式进行复制，可供多人同时使用，可多次循环使用，一个人的使用可以不排斥和妨碍别人对其使用，不同人之间在使用上不存在直接的利益冲突。易复制性使得数据具有一定程度的非竞争性和非排他性，但数据不是公共品，有公共数据、企业数据和个人数据之分。

（3）非均质性。《潜伏》中谢若林有句话：“现在两根金条放在这儿，你告诉我哪一根是高尚的，哪一根是龌龊的？”这说明了一个道理——金条是均质的，两根金条有着同等的价值表现。均质性普遍存在，例如出厂的商品、油电气等能源。而数据是非均质的，一比特数据跟另一比特数据所包含的价值完全不同，同一份数据对不同人的价值也不一样。正如王钦敏（2023）所说：“数据价值因使用对象而异，因应用场景而异，因专业化数据质量标准而异。”

（4）易腐性。数据是一种易腐品，会随着时间的流逝而迅速贬值。根据IBM（2015）数据，60%的非结构化数据在几毫秒内就失去真正价值。这意味着，数据的价值很大程度体现在时效性上，超过一半的数据在产生的那一刻就不再有价值，我们可称之为“一秒钟定律”。能得到分析处理并产生实际效用的数据则更少。全球90%的数据从未得到分析使用（IBM，2015；DASA R&T，2016）。2020年被创建或复制的数据中，只有不到2%被保存并保留到2021年（来源：IDC）。

（5）原始性。数据是原始的，本身并没有意义，只有对它进行处理分析，才能转变成对人们有用的信息。如果说数据是新石油，那么分析就是内燃机。信息是数据提炼后的产物；信息经人脑加工后形成知识，知识具有主观性；数据、信息和知识是历史的，而智慧是关于未来的，是人们运用知识做出决策和判断的能力。

对数据、信息、知识和智慧之间的关系，福特汉姆大学Zeleny教授（1987）提出了DIKW金字塔模型（如下图所示），从底层到顶层依次是：

数据（Data）：Know nothing，一无所知；

信息（Information）：Know what，知道是什么；

知识（Knowledge）：Know how，知道怎么做；

智慧（Wisdom）：Know why，知道为什么。

图 DIKW金字塔模型

三道难题

一个人和周围人的差距主要在于掌握信息、理解信息和运用信息的能力不同。数据和信息至关重要。但当下有三道难题困扰着数据健康有序发展，即数据确权、数据交易和数据要素。我们要迎难而上、敢于作为，以极大的勇气和智慧破解一切困难。

（1）数据确权。关云长身在曹营心在汉。对物理存在的身体之归属，我们比较容易判断；而内心和灵魂是缥缈不定的，具有不确定性、隐秘性和多元性，不乏同时属于多个主体的情况。数据与之类似，人们很难清晰判定它属于谁，很难对其进行有效的物理切割和合理的权利分配。确权的复杂性与数据本身的特征有关，也与权利主体的多样性有关。数据链条涉及多个参与者，他们缺一不可且无法单独发挥作用，具有不同的诉求。加之，数据的价值密度低，所产生的效益难以清晰衡量，这使得数据确权的成本极高。

（2）数据交易。交易是一种互利互惠的行为，是人类社会中最具自发性和最具积极性的活动。唯有双方都从中获益，交易才会发生。对数据而言，交易则是一个难题。联合国贸发会议（2019）指出：“数据具有重要的使用（或滥用）价值，但不像大多数经济商品那样具有交换价值。”现实中的交易一般具有明确的价格，是可重复、可预期的。例如，商店把明码标价的奶茶重复售卖给不同的消费者，消费者获得的效用是可预期的——止渴、美味、社交。数据非均质、价值不易衡量、定价困难、预期效用难以管理、有“搭便车”风险……这都是数据交易中要面对的问题。

图片来自：unsplash

（3）数据要素。生产要素是人们用来生产商品和劳务所必备的基本资源。它促进生产，但不会成为产品和劳务的一部分，也不会因生产过程而发生显著变化。新古典学派创始人马歇尔在其名著《经济学原理》（1890）中提出了生产要素四元论，即土地、劳动、资本和企业家才能。梅宏院士指出（2023）：“把数据确立为重要的生产要素是中国的首创。”然而，在经济学上定义数据生产要素是一件困难的事情，尚未看到有影响力和说服力的成果，迫切需要经济学家们加紧研究。

避免大数据自大

提起数据挖掘的经典案例，很多人会想到“啤酒加尿布”和谷歌流感趋势。实际上前者是一个故事，早在1992年就已出现，并没有真正发生过；后者曾提前预测出流感到来，不过因后来的准确性太低而早已被关闭。

数据的重要性毋庸置疑。人们喜欢在“数据”之前加一个“大”字，以彰显非同寻常。人们也时常陷入“大数据自大（big data hubris）”的误区。数据能解决很多问题，但有局限性，通过数据难以预测突变。一只岁月静好的猪，无法通过既往数据预测出春节的黑天鹅；马车的出行数据，可以使人们获得“一匹更快的马”，但不能使人们发明出汽车。数据是企业的竞争优势，但不是万能的。一个好的APP不会因有历史数据就能高枕无忧，它时刻受到创新者的挑战，只能“各领风骚仅几年”；创业者哪怕没有数据、没有积累，也可以推出创新产品，获得用户，取得成功。从这个角度上说，没有数据也不是不行。

图片来自：unsplash

大数据时代，“要相关，不要因果”被奉为圭臬。“关键是人的分析推理找出为什么两件事物同时或相继出现，找对了理由才是新知识或新发现的规律，相关性本身并没有多大价值”（李国杰，2015）。只信“数”不如无“数”。我们要综合运用实验观察、逻辑演绎、归纳提炼等科学方法，探究事物之间的关系和规律，才能挖掘出有价值的信息和结论。

我们重视数据，根本上不是因为数据本身重要，而是尊重客观世界和客观规律的实事求是精神重要，数据即事实。正如李国杰院士（2015）所言：“重视数据就是强调用事实说话、按理性思维的科学精神。”

本文来自微信公众号：腾讯研究院（ID：cyberlawrc），作者：闫德利

关键词：