近年来随着互联网、移动互联网、物联网、5G 、Ai等信息通信技术及产业的不断发展,全球数据量呈爆发式增长态势。
数据作为和土地、资本、劳动力、技术一样的生产要素,在数字经济不断深入发展的过程中,地位愈发凸显。我国是数据资源大国,IDC 研究报告指出,到 2020 年,中国数据量约 12.6ZB,较 2015 年增长 7 倍,年复合增长率为 124%。2025 年中国的数据量预计达到 48.6ZB,约占全球数据总量的 30%。
数据资源总体呈现出“4V”的特点,即海量的数据规模(Volume)、多样的数据类型(Variety)、价值密度低(Value)、快速的数据流转(Velocity)。海量的数据规模指数据量大,包括采集、存储和计算过程中所涉及数据量都非常大。大数据的起始计量单位通常是 PB(约 1,000TB)、EB(约 100 万 TB)或 ZB(约 10亿 TB)。
多样的数据类型指数据种类和来源多样化,包括结构化、半结构化和非结构化数据,具体表现为关系型数据、日志、音频、视频、文本、图片、地理位置信息等类型数据,多类型的数据对数据的处理能力提出了更高的要求。
价值密度低指有价值数据所占比例低。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,通过结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代需要解决的重要问题之一。快速的数据流转指数据增长速度快,处理速度要求快,时效性要求高。
例如实时监测场景中,企业需要对物联网设备数据进行实时处理并做出反应;零售电子商务应用类软件将消费者所持的移动设备的地理位置信息和其个人偏好相结合,推送有针对性的促销信息。
这是大数据区别于传统数据使用的显著特征。随着信息技术以及实际业务需求的快速发展,传统数据管理软件在处理大数据场景时不能很好适应数据的“4V”特性,面临较多技术挑战。因此,传统数据管理软件迫切需要技术革新。