(1)数据量爆发式增长
随着新一轮科技革命蓬勃发展,大数据与 5G、云计算、人工智能、区块链等新技术加速融合,正在重塑着各行各业的业务架构、产品形态和服务模式,推动着经济社会的全面创新发展,各行业各领域数字化进程不断加快,推动着数据量爆发式增长。
此外,新型虚实相融的互联网应用和社会形态正在从概念走向现实,需要建立虚拟世界与现实世界的连接交互,为了支持大规模用户同时在线,要增强现实技术的应用,同时还需要大量传感器、智能终端等物联网设备生成数据、实时收集和处理数据,为大数据产业注入了海量且多元结构的数据。
当前,全球数据量正处于飞速增长的阶段。根据国际机构 Statista 的统计和预测,2019 年全球数据产生量已达到 41ZB,而到 2035 年,这一数字将达到2,142ZB,迎来更大规模的爆发。
此外,随着大数据基础制度体系的建立和完善,数据要素的供应、流通、应用方式进一步明确,下游应用场景产生的海量数据可以被有效利用,从而产生价值。
(2)数据与分析复杂度提升,数据处理要求精细化
随着万物互联时代的到来,无论是数据本身还是对于数据的计算分析,都呈现复杂度逐步提升的趋势。从数据本身来讲,在物联网不断普及的背景之下,数据的来源更加多元化(除了传统的数据产生渠道之外,各类生产经营活动都可被数据化),且数据的形式更加多样(包括图片、文字、视频等多种样式),数据的结构更加复杂(包括结构化数据、非结构化数据和半结构化数据),这为后续的数据处理分析提出了一定的挑战。
从数据计算与分析来讲,其复杂度的提升带来了精细化的数据处理要求,具体要求体现在以下五大方面:
1)逐笔计算决策。和以前的模糊决策不同,现在对于计算决策的精准度要求更高,风险容忍度更小,故此往往需要逐笔地去进行计算决策;
2)时间窗口大且可伸缩。现在的数据分析和决策要求对历史信息进行计算分析,数据时间跨度较大,且要求计算系统可以灵活地选择计算区间;
3)复杂算子。由于业务需求的提升和算法模型的完善,一次计算往往需要经过复杂过程,指标运算方式较为复杂,往往需要包含多种算子;
4)关联计算。信息技术的发展使得事物之间的关联关系被充分挖掘,围绕关联信息的计算显得尤为重要;
5)深度学习。现在的数据分析和决策需要建立在对于行业知识的理解之上,单纯的指标计算已经难以满足业务发展的需要,故此在计算分析的同时需要对行业知识进行深度学习。
随着数据分析的复杂度不断提升,传统的数据处理工具难以满足下游行业的应用要求,需要有更加精细的数据处理手段来实现数据价值的挖掘。
(3)“热数据”的应用价值凸显
“热数据”,即实时数据,这类数据迟滞性较低,一般存续在秒级以内,甚至毫秒级、微秒级,数据处理分析难度较大。“冷数据”是一般指历史数据,这类数据的处理分析较为容易。介于两者之间的数据,称之为“温数据”当前,金融、物联网、互联网和通信等领域产生的数据愈发呈现出实时、易失、突发、随机、无线等特征,也就是说“热数据”规模呈指数级增加。
如能对这些“热数据”进行有效处理分析,则能够充分发挥其决策和预测功能,在风险防控、业务决策等方面将创造巨大的价值。但是,由于“热数据”存续时间短,其处理分析往往具有比较高的技术要求。
(4)数据处理技术不断迭代
为满足大数据时代新的市场需求,数据处理技术不断迭代,新技术发展的具体特点如下:
1)构建流式处理平台是大势所趋。在大数据时代,数据的实时性日益突出,数据的流式特征更加明显。流式计算的产生来源于对数据处理时效性的严苛要求,数据的价值随时间流逝而降低,传统批量处理技术已难以满足数据处理实时性的需求,越来越多的应用场景需要部署在流式计算平台中。
2)流批融合处理正在成为趋势。流处理能够有效处理即时变化的信息,从而反映出信息热点的实时动态变化,而离线批处理则更能够体现历史数据的累加反馈。随着技术架构的演进,流批融合计算正在成为趋势,并不断向更实时更高效的计算技术推进,同时需要对历史知识进行学习积累,以支撑更严苛、更丰富的大数据处理需求。
3)实时智能成为数据处理技术发展新方向。流式大数据与人工智能的融合已成为大数据领域当前最受关注的发展趋势之一,这种融合主要体现在流式数据平台的智能化。用智能化的手段来分析流式数据是释放数据价值的进阶之路,流式大数据平台将和机器学习平台深度整合。
(5)发展自主可控国产大数据基础软件的需求较为迫切
目前大数据计算框架体系由国外厂商主导,下图列举了目前市场上主流的大数据开源基础软件。基于国外开源的大数据计算框架体系或部分开源的功能方案,已经成为当前国内众多企业软件技术建设的重要模式。开源软件的著作权既没有被放弃也没有过期,其修改和发行等仍然要受到版权法或者开源许可证的制约。
相比较采用开源软件而言,发展自主可控的基础软件更有助于创新型解决方案的产出和产品的持续迭代。故此,我国亟须有自主知识产权且性能达到国际领先水平的大数据基础软件厂商出现,帮助我国大数据基础软件行业在当前由国外厂商垄断的行业格局中突围。
(6)行业价值链延伸,大数据应用解决方案的推广力度加大
根据《“十四五”大数据产业发展规划》,未来将加快建设行业大数据平台,提升数据开发利用水平,推动行业数据资产化、产品化,实现数据的再创造和价值提升。打造服务政府、服务社会、服务企业的成熟应用场景,以数据创新带动管理创新和模式创新。持续开展大数据产业发展试点示范,推动大数据与各行业各领域融合应用,加大对优秀应用解决方案的推广力度。
开展行业大数据开发利用行动,包括金融大数据、交通大数据、通信大数据、医疗大数据、应急管理大数据、农业及水利大数据、公安大数据、电力大数据、信用大数据、就业大数据、社保大数据、城市安全大数据等。