视群研究员
## 摘要
本文试图从数据资本(可流通、可交换、可估值)的角度,在相对成熟的数据3V(Volume, Variety, Velocity)模型基础上,增加数据主体(物理的,设计的,意向的)维度,形成基于预测难度和计算难度的数据价值与价格评估框架,并初步建议数据价值/价格之间的(数学)比较关系,回答一个当前困惑的问题:从流通、变现、增值的角度,哪些数据更有价值?应优先采集、应用哪些数据?同时,本文还探讨了数据之间的底层协议,以使更大范围、更长时间周期下、更多数据可流通。
## 1. "数据资产"与"数据资本"定义
2016年3月,MIT科技评论与ORACLE在合作撰写的报告——《数据资本的兴起》中第一次使用了"数据资本"的概念:
"数据已经成为一种资本,和金融资本一样,能够产生新的产品和服务。这种变动会影响到所有公司的竞争策略及为其提供支持的计算架构。"
但其解释,更多强调"资产"的概念,侧重企业内部经营,没有体现数据的流通,以及获取外部收益的能力。
因此,本文对"数据资产"与"数据资本"的定义,更接近亚当斯密在《国富论》中提出的"资产"与"资本"概念的演化:
"资产是个体在某个时间点的财物总和,包括用于个人消耗/消费和用于投资、获取利润的部分,其中,资本就是可用来投资,出让使用权,创造收入、获取利润的部分。"
在这里,"资产"与"资本"具有一定的演化逻辑:
资产包含资本,在不丰裕的年代,资产概念重于资本,因为,大部分人的资产只够自己消费,没有剩余资产用于再投资和获利。分工后,每个人的劳动效率提高,产出增加,因此,会有一定资产剩余,大部分人会用来扩大消费,少部分人会用来扩大生产,进一步积累资产,形成资产的马太效应。其中用来出让使用权、投资获利的资产部分,就叫资本,资本的概念,也开始从资产中分离,成为比资产更重要的概念。
一般而言,资产是个相对静态的概念,而资本具有流动性,可流向需要他、体现他价值的地方,在这些地方,往往由于资本的稀缺,导致收益颇丰。当资本产生时间的复利,就进一步集中在少数人手中,形成资本主义,即大多数人的生产,都得益于少数人的资本投资,因此,大多数人的生产成果,也需要交付少数人一笔分成。换句话说,资本的力量促使资本家自然形成。
数据资本,具有相似的演化逻辑:数据,最开始主要用于企业自身经营管理的提升,侧重数据资产的概念;当数据资产使用得当,企业经营效率大幅提升,投资回报成倍增加,企业会进一步扩大数据应用范畴,一方面,快速扩大经营,跑马圈地,进一步聚集数据资产,形成马太效应;另一方面,输出数据,流向需要他、体现他价值的地方,在这些地方,由于数据的稀缺,导致投资收益丰厚,比如,当前许多互联网企业之间的投资与并购,大份量的都是数据资本驱动,大多数的互联网企业创业,也是先免费(采集)数据(资产),再形成数据资本,通过数据发现商机,通过数据投资获益。
因此,我们把"数据资产"定义为:企业在某个时间点的数据总和,包括用于企业内部经营和外部投资、获取利润的部分;
其中,"数据资本"是可用来投资,出让使用权,创造收入、获取利润的部分。
## 2. 数据分类与分层
数据的本质是信息,更多的数据代表更多的信息,而信息能降低面向世界的不确定性,能更好的预测和决策,能早一步看到可能性,这是数据的价值所在。
大数据的3V(Volume, Variety, Velocity)模型,建立了一种数据比较的逻辑:相同场景下,数据量越大,数据类型越多样,数据变化/变动速度越快,信息就越丰富,对未来的预测就越及时、越准确,其价值就越高,当然,算力消耗也越大,价格也越高。
但是,在什么场景下,解决什么问题,获取什么数据,应付什么代价?这个模型却难以回答。
在这里,我们参考认知科学家丹尼尔.丹尼特对存在物的分类,将数据主体基于物理性、设计性和意向性划分为三类。
物理性:首先,所有存在物都有物理性,都服从物理规律。其中,所有既非生命也非人工制品的东西,如石头,其行为表现可用物理规律精准解释和预测;所有人工设计物和生命体,如一个闹钟或一条金鱼,也遵从物理规律,对其下落轨迹可作出同样的预测;一架飞机或一只鸟,也可用物理属性预测物质层面的规律和表现。
设计性:其次,作为设计出来的物体,比如闹钟,还依从一种不同的预测方式:设计出来的功能是否合适,是否能实现预期目的,面临一定的不确定性,因此,对设计态的预测难于纯物理态预测。此外,具有自然设计意图的生物体及其组成部分,也属此列,比如,把种子埋到地下,不一定总有食物可吃。
意向性:设计姿态之上,还有一个子类,具有意向性,如人工智能。意向性主体的特点是,给他一个目标,他能根据算法,自我调整,实现目标。意向性表现的最高级是人类,按照当前普遍接受的基思.斯坦诺维奇的三重心智模型,人有三重心智:第一层,所有生物体都具有的自主心智,主要由基因主导;第二层,接近人工智能的算法心智,表现出个体的差异;第三层,反省心智,人类所仅有。因此,从可预测性来看,人类行为的预测难度最大。
据此,根据产生数据的行为主体的特点和可预测性,我们将数据分为三类:
1. 纯物理姿态:任何(自然)环境的描述变量、基础物理设施,越孤立,越静态,数据点越少,数据价值越低;反之,越复杂,越大规模,数据量越丰富,数据变动越快,价值越大,如天气、水、环境检测;
2. 设计姿态:带有感知的设计物,如生物体;所有人造物,如工业品,消费品等;规模越大,变化越快,可预测性越重要,数据价值越大;
3. 意识姿态:人工智能;人。同样,由人组成的网络越大,人的意识越能自由表达,对人的观测和研究能越准确,数据产生的价值越大。
这个分类模型,和阿里基于新零售场景提出的"人"、"货"、"场"模型,有底层逻辑的一致性。只不过,阿里的定义范畴较小,"人"主要指购买商品的人,"货"主要指实体商品,"场"主要指批零场所。从丹尼尔丹尼特基于物理性、设计性和意向性分类的基础模型出发,我们的数据分类模型更具有普适性和通用性,可作为不同应用场景数据分类的底层设计。
## 3. 数据价值评估框架
如此,初步建立起我们的数据价值评估框架。
(图一)
纵轴,是基于主体能动性从而影响到行为的自主性以及不可预测性进行的划分,意向性的预测难度高于设计性、设计性的预测难度高于物理性。也因此,"人"的数据价值,从通常意义上,高于设计"物"的数据价值,高于纯物理的数据价值。
横轴是数据3V模型的综合,从孤立的个体数据,到形成网络,再到复杂系统,是数据产生、发展的逻辑,也是对当前大数据的美好期待。数据系统越复杂,无论其解决具体问题的能力如何,价值如何,从算力要求,其价格必然越高。
(未完待续)
河南省郑州市金水区丰产路34号大方商务
13937178008
0371-65957201 65956916
0371-65957201
smr@shiqun.com.cn