1、项目概况
本项目将围绕公司商业大数据解决方案的主营业务展开,一方面结合核心技术提高数据提取、挖掘能力,提高知识图谱的建立与计算能力,同时提高数据获取与清洗环节的自动化水平,从而促进公司技术壁垒的构建,并为大数据解决方案业务的运营带来降本增效的效果。
另一方面加强公司数据中台建设,从基础数据、知识数据、智能数据维度丰富公司底层数据种类与容量,并加强数据智能化应用模块研发,提供智能化的信用、商机、风险描述与评价,在为客户提供更加丰富数据与功能的同时提高对数据利用的智能化水平,达到增强数据使用时效性、降低公司数据处理成本,以此作为公司长期发展的有力保障。
2、项目具体内容
本项目具体研发内容及目标如下:
(1)商业大数据核心技术研发项目
商业大数据核心技术研发子项目以公司人工智能、大数据等技术为基础,通过对知识图谱、自然语言处理、数据获取、数据清洗、中间件等技术进行进一步研发以为公司商业大数据业务提供更好的底层支持。在知识图谱技术领域,本项目将提高知识图谱建立的智能化水平,并加强分布式图数据库、关系计算研发投入,提高计算性能与关系挖掘能力;
在自然语言处理技术领域,本项目集中于新闻、公告等复杂文本情况下的关系识别、提取、内容去重及情感分析的研发,提升商业大数据服务在复杂文本场景下的信息提取、分析能力;
在数据获取领域,本项目将探索公开数据源自动发现能力,对网页的结构进行优化,提高数据获取效率,并实现对数据的自动更新,降低公司数据获取成本、提高数据内容的时效性;在数据清洗领域,本项目基于人工智能与弱监督学习研发半自动化的数据清洗技术,降低数据标注、数据清洗成本;在中间件领域本项目将在访问便捷度、访问效率、数据安全性领域进行研发,提高访问体验与底层数据的安全性。
(2)数据中台建设项目
数据资源是公司商业大数据服务的核心,数据中台建设子项目基于提高底层数据完整性、提升数据中台智能化水平进行三个模块的建设:基础数据模块、知识数据模块、智能数据模块。具体为:
1)基础数据模块包括国内外企业数据、产品产业数据、宏观数据,以及商业、行为、检测等另类数据。基础数据模块的完善能够提高公司数据的完整性,为下游客户决策的制定提供更加丰富的维度,并帮助商业大数据业务探索更多的服务模式。
2)知识数据模块主要为企业、产品、产业链、事件等知识图谱系统的建设,建立起企业、产品、产业链、事件之间的节点与关系,丰富结构化标签与非结构化描述,并对节点、关系进行高效的可视化描述,能够加强公司底层知识图谱能力。
3)智能数据模块包括信用模型、传导模型、风险模型、机会模型,以及智库产品,通过自动化模型的研发能够实现对企业信用、关系传导、企业风险、商机的自动分析与评价,能够提高公司数据分析的智能化水平,并为用户提供便于使用的智库类产品。
3、项目必要性及可行性分析
(1)提升数据完整性、准确性、实时性,满足下游客户场景化应用需求
随着大数据解决方案行业的发展,行业经营模式相对稳定,产品与服务的竞争逐渐激烈,各平台纷纷推动差异化战略以构建竞争优势。对于数据资产而言,数据的完整性、准确性、实时性是实现数据资产价值并且最大化发挥其效能的关键。
一方面,平台需要提高数据覆盖广度,为用户使用数据提供多维度参考,另一方面则在于大数据平台应该为用户提供准确的数据并及时、高效地处理与更新信息,把握数据价值。首先,数据覆盖广度决定利用效率,更丰富的数据能够为客户提供更多的参考维度,帮助客户在更多场景做出决策。
其次,商业大数据质量参差不齐且实时发生变化,客户依赖公司提供的大数据解决方案进行风险管理、智能营销、市场分析等活动,错误或过时的数据具有引发错误决策的风险,数据完整性能够保障企业所取得数据信息紧跟市场变化,从而提高决策的可靠性。
本项目中,公司在提高数据挖掘、计算等核心能力的同时,还将针对数据完整性进行建设,完善基础数据、知识数据模块内容,为用户提供更加丰富的数据内容,并针对数据清洗、数据实时提取技术进行研发,提高数据质量与对数据的实时抓取、更新能力,从而满足下游客户越来越丰富的应用场景需求。
(2)加强知识图谱、大数据挖掘方面的技术壁垒,招募相关技术人才
技术是公司提供各种商业大数据服务的基础支撑,也是公司核心竞争力的体现。随着大数据、NLP、深度学习、知识图谱等新兴技术在行业内的加速渗透,行业技术水平不断提高,由于这些技术具有高投入的特性,需要进行长时间研发,因此各企业纷纷加强优势技术研发,构建技术护城河。
为了保持公司产品服务的技术领先性,公司需要对现有技术迭代升级,建立企业知识图谱技术系统、自然语言处理技术系统,研究基于人工智能弱监督学习的半自动大数据清洗技术、分布式数据中间件等先进技术。技术的创新在帮助公司构建技术壁垒的同时可进一步提高产品与服务水平,为客户带来更便捷的使用体验,进而促进业务的增长。
同时,NLP、大数据等技术升级难度较大,对人员需求较高,不仅需要公司具有较大规模的技术团队,同时对其技术水平与研发经验也有一定的要求,但公司的人员规模无法满技术升级的迫切需求。公司计划招募更多高水平研发人才,帮助公司开展人工智能、大数据、知识图谱等技术的研发,以进一步加强技术壁垒,有利于公司的长期可持续发展。
(3)升级大数据解决方案业务的自动化与智能化能力,实现降本增效
公司大数据解决方案业务以大数据技术为框架,以数据为支撑,良好的数据质量是公司业务开展与的必要前提。由于公司数据源多样,所获取的数据在格式、质量等方面均存在较大差异,需要在挖掘前对数据进行清洗留下高质量的数据,存在一定的清洗成本。此外,公司 NLP、知识图谱等技术模型算法的进步需要大量标注后的数据加以训练,成本较高。
通过本项目的实施,公司将研究基于人工智能弱监督学习的半自动大数据清洗技术,通过建立智能数据清洗模型,避免大量样本标注,而是基于原始数据即可完成训练,从而降低样本标注成本。公司还将开发可自动生成数据清洗规则的模型,通过配合人工干预和人工预设规则,对海量数据进行有效的异常数据发现与修复,实现降低数据清洗成本的效果。因此,本项目建设能够降低公司数据标注与清洗成本,提高公司盈利能力。
此外,公司还将针对知识图谱系统进行智能化模型研发与计算性能优化,通过自动化的关系建立模型提高知识图谱建设效率,并通过加快计算速度、加大关系计算深度为客户提供更加优秀的服务。作为公司商业大数据业务的基础,数据技术平台的升级能够为公司业务保持长期竞争力与可持续增长提供推动力,是公司战略发展的必要建设。
4、项目建设进度安排
项目建设周期为三年,投资16,306.01万元。