“大数据”这个词的流行无需夸大。在过去的两年中,任何与互联网相关的活动和会议都离不开“大数据”部分。
关于大数据的书籍和文章铺天盖地,似乎共同传递了一个信息:越来越多的行业和人群开始探索大数据的应用。我们正在一起绘制大数据巨大效用的蓝图,但在实践中,我们仍在初级阶段迈出一小步。
大数据的根源是基于互联网,数据仓库、数据挖掘、云计算等互联网技术的发展为大数据的应用奠定了基础。然而,实际应用仍在探索中。
什么是大数据?
列出大数据的三个常用定义:
(1)海量、高增长、多元化的信息资产,具有强大的决策、洞察和流程优化能力,需要新的处理模式。
——Gartner
(2)海量的数据量,快速的数据流和动态的数据速度,多样的数据类型,巨大的数据价值。
—— IDC
(3)或称海量数据(massive data),海量数据,大数据,是指涉及的数据太大,无法在合理的时间内进行截取、管理、处理和整理,并能被人类解读。
——维基
大数据的其他定义也类似。可以用几个关键词来定义大数据。
首先是“大尺度”,可以从两个维度来衡量。一是从时间序列中积累大量数据,二是深度提炼数据。
其次,“多样化”可以是不同的数据格式,如文本、图片、视频等。,可以是不同的数据类别,如人口统计数据、经济数据等。,或者可以有不同的数据源,如互联网和传感器等。
第三,“动态”。数据是不断变化的。可以随时间快速增加大量数据,也可以是在空之间不断移动变化的数据。
这三个关键词定义了大数据的形象。
但是需要一个关键能力,就是“处理速度快”。如果有这种大规模的、多样的、动态的数据,但是需要很长时间的处理和分析,那就不叫大数据。另一方面,要实现这些数据的快速处理,人工肯定是没办法做到的,所以需要机器的帮助。
最后,在机器的帮助下,我们可以快速处理和分析这些数据,以获得所需的信息或整个应用系统,这可以称为大数据。