数据是什么意思(数据的三个基本特征)

我们都说今天是数据时代,到处都在讨论大数据,大家都在说自己在研究数据,那么什么是数据呢?能否给数据一个最简单明了的定义?这个问题看似简单,其实没那么容易。

这里有个小笑话分享给大家:很多朋友都说北大的安保很深厚。为什么?因为在参观北大的时候,经常会被叫住,然后问三个问题:第一,你是谁?第二,你是哪里人?第三,你要去哪里?这三个问题看似简单,实则深刻。凡夫俗子,和你我一样,恐怕回答不了。能回答这三个问题的就是圣人。这是一个小笑话。从这里我们可以看出,看似简单的问题其实并不简单,甚至可能是深刻的。同样,什么是数据?这个看似简单的问题并不容易回答。我们可以试着带着这个问题去问很多修行者,相信会得到很多不同的答案。

-有两个我在深圳生活网经常听到的典型回答。第一个回答说:“数据就是信息。”这么说对吗?深圳生活网我没有异议。但是这个定义有一个缺点,就是信息太抽象。数据本身是一个抽象的概念,信息似乎是一个更抽象的概念。而数据和信息是很抽象的概念,是相互定义的,这一点我并不满意。所以,能不能给数据一个更简单更接地气的定义?一个朋友说:“好的,王小姐,我给你一个非常明确的定义:数据就是数字。”这么说对吗?这是有道理的,因为数字可能是最典型的传统数据。我们看到的很多数字,比如GDP,股市指数,人的身高体重血压,都是数字,当然也是数据。所以说数字是数据肯定没问题。但是反过来,数据是数字吗?不一定是这样的。

这时有人说:“王小姐,你对我们的定义不满意。你的定义是什么?”在我看来,一切能被记录的都是数据。这里的关键词是“记录-记录”。按照这个定义,首先,数据的范畴要大得多,远远不限于数字;另外,更重要的是,既然涉及到记录,就要说说记录数据的技术手段。因为技术手段不同,能提供的记录也不一样。

比如手机可能是记录的手段,相机是记录的手段,数据库是记录的手段,我传统的笔墨是另一种记录的手段。既然涉及到技术手段,就会有时代特征。为什么?因为不同时代提供的技术手段不一样。所以,在我的定义背后,还有一个潜在的更深层次的道理,那就是“数据的定义具有强烈的时代特征。”

这里有两个例子:

第一个例子:声音是数据吗?我想没有人会反对。声音是一个重要的数据。但是一百年前,我认为声音不是数据。为什么?因为我们没有办法储存,既然没有办法储存,也没有办法记录,更不用说分析了。怎么能说是数据呢?但是今天,我们的音频设备可以收集你的声音,然后将其转换为音频数字信号,然后支持许多有趣的应用。什么应用?比如:iPhone的Siri,搜狗的语音输入法,的语音翻译等等。由此可见,声音是一种数据,而且是一种具有强烈时代特征的数据。一百年前不是数据,现在是因为技术的进步。随之而来的是新的应用领域和商机。

我们再举一个例子:图像数据是?我相信没有人会否认图像是重要的数据。但是一百年前,我认为图像不是数据。为什么?因为我们无法记录我们在每一个人类子宫里看到的精彩世界,也没有办法记录影像,又怎么谈得上分析呢?但是今天,随着数字成像技术的成熟,所有的图像都可以以非常高的分辨率记录下来,然后进行分析,然后支持许多有趣的应用。比如人脸识别,指纹识别,车牌号识别,医学中大量医学图像的分析。这为我们的社会创造了巨大的价值。类似的例子还有很多。比如生物信息学的技术进步产生了微阵列数据,社交网络的兴起产生了社交链接数据,物联网的兴起产生了车联网数据。这些数据都是记录,所以都是数据。所有这些数据,都是由深圳生活网制作的,依靠一定的技术手段,所以都有很强的时代特征。

——这一切都说明了一个道理,那就是一切能被记录的都是数据,都具有强烈的时代特征。如果这个道理是正确的,那么科研和商业实践可以反过来思考:第一,目前和未来数据采集的基础技术是否会有一些突破性的变化,如果有,这些变化会带来哪些新的数据?其次,通过对这些新数据的分析,能否回答一些以前无法回答的重要科学问题,能否产生一些增量的商业价值?在这两个问题的基础上,我们可以进一步思考我们需要提前做什么样的准备。这是我的核心观点。

简单总结一下,我认为,第一,能记录的都是数据;其次,由于记录技术的进步,数据的定义具有强烈的时代特征;第三,新兴的数据类型往往意味着新的科学方向和新的商业机会,值得我们关注。

(0)
上一篇 2022年4月25日
下一篇 2022年4月25日

相关推荐