首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业数据

“大数据”全生命周期管理阶段
思瀚产业研究院 星环信息    2024-05-17

大数据生命周期进一步细分为大数据集成、存储和处理、治理、建模、挖掘和流通等阶段。

各主要环节相关技术简介如下:

(1)大数据集成

数据集成包括大数据采集和大数据整合。大数据采集主要是通过各种技术手段将分散的海量内容数据(文本、音频、视频等)、行为数据(访问、查询、搜索、会话、表单等)、工业生产数据(传感器数据、监控数据)等从业务系统中收集出来。

由于大数据本身具有分散、海量、高速、异质的特征,采集难度较大,因此保证数据采集的稳定性、可靠性、高效性、可用性和可扩展性等是主要的技术目标,越来越多的企业开始选用专业的数据采集服务。

大数据整合的目标是将各种分布的、异构的数据源中的数据抽取后,进行清洗、转换,最后加载到数据仓库或数据集市中,作为数据分析处理和挖掘的基础;这个过程常常也被称为 ETL(Extract/抽取,Transform/转换,Load/加载),通常 ETL 占到整个数据仓库开发时间的 60%~80%。大数据时代,数据整合软件的市场也开始了整体的技术升级,主要解决两个主要技术问题,一是独立的 ETL 应用服务器的计算能力普遍不足,二是无法处理半结构化和非结构化数据。

经过几年的技术发展,ETL 过程逐步演进为 ELT,即数据抽取后直接加载(Load)到大数据平台中,再基于大数据平台的计算能力来实现数据转换(Transform),不再依赖 ETL 应用服务器做抽取和转化工作,这样可以解决 ETL 应用服务器的处理能力不足问题,充分利用大数据平台的分布式计算能力提升数据集成的效率和稳定性。

(2)大数据存储和处理

大数据存储与处理要用服务器及相关设备把采集到的数据存储起来,使得数据能够被高效地访问和运算。由于数据量的爆发式增长,尤其是非结构化数据的大量涌现,传统的单机系统性能出现瓶颈,单纯地提高硬件配置已经难以跟上业务的需求,产生的海量数据没有合适的存储场所,企业被迫放弃大量有价值的数据;数据处理的速度和性能出现瓶颈,业务的深度和广度受到限制。因此,过去十年间,计算机系统逐步从集中式向分布式架构发展。

分布式架构及相关技术通过增加服务器的数量来提升系统的处理能力,每个节点都是一个可独立运行的单元,单个节点失效时不会影响应用整体的可用性。分布式系统在扩展性、容错性、经济性、灵活性、可用性和可维护性方面具有明显优势。

(3)数据治理

根据国际数据管理协会的定义,数据治理是对数据资产管理形式权利和控制的活动集合。数据治理是一个管理体系,包括组织、制度、流程和工具,随着集成和存储的数据量增加,数据治理的难度也逐渐增加,牵扯的关联方也越来越多,因此需要一套适合企业的方法论来开展工作。业界逐渐形成了 DAMA、DCMM 等较完整的数据治理体系框架,一般包括制定数据治理战略、定义数据治理工作机制、通过各个业务专题来落实相关数据治理工作内容,并最终落实到数据治理工具上来实现高效持续的数据治理的执行流程。

具体到数据治理的内容,一般包括元数据管理(包括元数据采集、血缘分析、影响分析等)、数据标准管理(包括标准定义、查询与发布等)、数据质量管理(包括质量规则定义、质量检查、质量报告等)、数据资产管理(包括数据资产编目、数据资产服务、资产审批等)、数据安全管理(包括数据权限管理、数据脱敏、数据加密等)、数据生命周期管理(包括数据归档、数据销毁等)以及主数据管理(包括主数据申请、发布、分发等)这几个主要的部分。

(4)数据建模

数据建模是构建企业数据仓库、数据湖和数据集市的重要过程,其通过一个业务级别的数据模型设计,将分散在不同数据源中的数据集成在一起,并通过一种面向业务主题的方式将数据分门别类来做重新组织和标准化,形成有明确业务意义的数据形式,统一为数据分析、数据挖掘等提供可用的数据。面向业务主题(如客户主题、账户主题等)的数据组织管理方式便于业务人员对数据的理解和综合使用。

具体到技术层面,数据建模一般包括业务调研、架构设计、数据模型设计、数据库 SQL 开发与测试、业务集成上线等几个阶段,架构设计是整个工作的核心,一般会面向不同的行业来设计相关行业的逻辑数据模型。在数据建模过程中使用的工具主要包括:数据模型设计与管理工具、SQL 开发工具、任务调度工具等。

(5)数据分析和挖掘

大数据分析和数据挖掘的核心目标是对客观事实规律进行描述、展示和总结、刻画、推广,可以从大量的数据中通过算法来揭示出隐含的、未知的并有潜在价值信息,并对客观规律进行溯源和解释,从而帮助决策者做出正确的预测和决策。

围绕这个目标,大数据分析和挖掘的手段可以分为模型驱动、数据驱动等,一般通过统计、在线分析、情报检索、机器学习和专家系统等在内的多种方法来实现这一目标。现阶段在面对大数据“4V”问题时,大数据分析和数据挖掘工具对传统数据分析和挖掘工具做进一步自动化和智能化;与此同时,近年来深度学习的兴起又为大数据分析提供了新的手段,其做为当前计算机行业的热点研究方向之一,其本质的目标是从大量数据中提取模式和知识,其要处理的对象包括结构化数据、半结构化数据和非结构化数据在内的所有类型数据,例如近年来在视频、语音等非结构化数据的分析需求快速增加,相应的深度学习技术也取得了飞速发展。

(6)数据流通

数据流通是按照一定规则,将存储的数据或者数据分析、挖掘得到的信息作为流通对象,从供应方传递到需求方的过程。数据流通的具体内容包括可视化的分析报告、面向运营人员的数据标签、面向应用可以直接调用的数据指标 API、面向数据分析人员的数据集、面向数据挖掘人员的数据特征、和面向业务建模人员的单方或多方的建模模型等。基于数据水印、数据加密和脱敏、隐私计算、联邦学习的数据流通安全技术,可以提高数据流通的完整性和保密性。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。