近年来随着互联网、移动互联网、物联网、5G 等信息通信技术及产业的不断发展, 全球数据量呈爆发式增长态势。数据作为和土地、资本、劳动力、技术一样的生产要素, 在数字经济不断深入发展的过程中,地位愈发凸显。
我国是数据资源大国,IDC 研究报 告指出,到 2020 年,中国数据量约 12.6ZB,较 2015 年增长 7 倍,年复合增长率为 124%。 2025 年中国的数据量预计达到 48.6ZB,约占全球数据总量的 30%。数据资源总体呈现 出“4V”的特点,即海量的数据规模(Volume)、多样的数据类型(Variety)、价值 密度低(Value)、快速的数据流转(Velocity)。
海量的数据规模指数据量大,包括采集、存储和计算过程中所涉及数据量都非常大。 大数据的起始计量单位通常是 PB(约 1,000TB)、EB(约 100 万 TB)或 ZB(约 10 亿 TB)。
多样的数据类型指数据种类和来源多样化,包括结构化、半结构化和非结构化数据, 具体表现为关系型数据、日志、音频、视频、文本、图片、地理位置信息等类型数据, 多类型的数据对数据的处理能力提出了更高的要求。
价值密度低指有价值数据所占比例低。随着互联网以及物联网的广泛应用,信息感 知无处不在,信息海量,但价值密度较低,通过结合业务逻辑并通过强大的机器算法来 挖掘数据价值,是大数据时代需要解决的重要问题之一。
快速的数据流转指数据增长速度快,处理速度要求快,时效性要求高。例如实时监 测场景中,企业需要对物联网设备数据进行实时处理并做出反应;零售电子商务应用类 软件将消费者所持的移动设备的地理位置信息和其个人偏好相结合,推送有针对性的促 销信息。这是大数据区别于传统数据使用的显著特征。
随着信息技术以及实际业务需求的快速发展,传统数据管理软件在处理大数据场景时不能很好适应数据的“4V”特性,面临较多技术挑战。因此,传统数据管理软件迫切需要技术革新。