1、项目概况
围绕着公司技术架构体系,该项目通过继续对前沿 AI 技术进行研发,进一步升级目前的 AI 平台和 AI 核心技术,深化智能文字识别技术在公司 C 端和 B 端业务的场景应用,提升公司核心技术竞争力。
本项目分 AI 智能文档识别与分析技术项目、AI 自然语言处理平台项目、AI 底层技术平台研发项目三个方向展开。
本项目是对公司目前的智能文字识别核心技术的进一步深化、升级和整合,通过更加模型化、平台化的技术开发,支撑公司智能文字识别 C 端产品和 B 端服务等业务发展。
2、项目具体内容
(1)AI 智能文档识别与分析技术项目
本项目主要扩展智能文字识别技术的应用场景,提升技术的应用性能,包括多语言场景、多文字方向场景、多样化字体和版面场景,加强对图表识别理解、扫描文档图像分析还原及扫描增强等智能文字识别技术研发,提升文本图像质量、识别准确率,进一步优化用户体验。
1)多语言多方向的 STR(Scene Text Recognition)技术研发
支持对拍摄或者扫描后的文本图像中的多语言和多方向文字进行识别,提取文字和版式。该项目旨在通过研发相应的多方向文字检测技术,多语言文字识别技术,特别是中文和英语混合的图像文本识别技术进行优化。
2)复杂场景下的 STR(Scene Text Recognition)技术研发
支持对拍摄或者扫描后的文本图像中,存在的曲形文字、圆形文字、手写文字、公式、下划线文字、艺术体文字、复杂版面中的文字等各种复杂场景下的文字进行识别。该项目旨在通过对文字检测和识别技术进行升级,使得其能够适应更通用更复杂多样的场景下的文字检测与识别,比如可以更好地对试卷、杂志、手写文稿中的文字进行识别。
3)文档中图表的检测、识别和理解技术研发
图表在商业文档具有非常重要的作用和意义,该技术主要是为了研发和升级表格检测识别和理解技术算法,以支持对拍摄或者扫描后的商业文档数据中的图表进行检测、识别和理解。该项目旨在通过研发文档图像中的图表的检测识别和理解算法,并与文字识别和理解相结合,更好的对文档图像进行识别和理解。
4)基于数据驱动的版面分析与还原技术研发
支持对拍摄或者扫描后的商业文本图像数据进行版面分析,对识别后的文字按照语义进行组织,并还原成对应的 word、excel、pdf 等各种格式的文件。该项目旨在通过研发基于图像检测和分割的文档版面分析算法、基于智能文字识别结果的文档版面分析算法,以及这两种算法的融合和集成,实现商业文档的版面分析与还原。
5)智能文档扫描增强技术研发
本项目旨在利用基于深度学习的曲面文本图像校正技术、文本图像切边技术、去阴影技术、去手指技术、多图拼接技术等对各种业务场景中的拍照和扫描文档图像进行智能扫面增强处理,提升文本图像的质量和用户体验。大幅度降低后续的文档图像分析与处理的难度。例如在拍书的场景中,由于书籍弯曲,使得拍摄的书籍图像页面是弯曲的,通过曲面文档校正技术,可以将曲面校正成平面,提升整个图像的质量。
6)基于 AI 技术的文档图像检测与定位技术研发
在实际应用场景中,用户拍摄的图像中,除了用户关心的文本图像外,还包含很多干扰性背景。在有些场景中,用户对多个文本图像感兴趣,而不希望拍摄多次。因此,本项目旨在利用基于深度学习的物体检测技术对任意场景下的文档进行定位检测。可以自动定位检测出每一个文本图像的位置。为后续的切边校正、增强、分类、识别提供一个干净的文本图像,降低后续文本图像处理的难度,大幅提升用户体验。
(2)AI 自然语言处理平台项目
本项目将重点建设超大规模自然语言模型训练平台,以此为技术支撑,开发拓扑和语义信息融合及基于迁移学习的文字理解技术,在理解的基础上,进一步实现自然语言的生成。并在与智能文字识别技术结合后,使机器能对全新的、任意商业文档实现关键信息提取。
1)超大规模的自然语言模型训练平台
为了建设超大规模语料的存储清洗提炼挖掘平台,针对超大规模语料提供分布式计算功能,可实时流式处理文本语料,同时应用多种算法清洗语料,为语料提供分布式高可用存储支持。本项目旨在研发超大规模的自然语言预训练模型,并构建并行训练系统,加速大规模语言模型的训练,采用 Bert、XLNet、ERNIE 等深度学习神经网络的相关模型,对后续的各种 NLP 技术提供底层技术支撑。
2)融合拓扑信息和语义信息的文字理解技术
针对拍摄的或者扫描的文本图像,通过智能文字识别技术合合可以获取到文本图像中每个字符的文本内容和位置信息。该项目主要是同时利用文字的语义和拓扑信息从而更好更精准地对文字进行理解。该项目旨在研发文字语义特征提取,拓扑位置特征提取、多特征融合语义理解技术,实现对证照、票据、简历、合同等各种类型的文档进行理解。
3)基于迁移学习的文字理解技术
通过融合拓扑信息和语义信息的语义理解技术,公司可以针对有充分标注数据的各种类型的文本图像训练一个通用的语义理解模型。但在遇到特定类型的新文本图像时,起步阶段标注样本较少,导致语义理解技术无法使用。本项目旨在将迁移学习技术与融合拓扑信息和语义信息的文字理解技术相结合,通过将已经训练好的文字理解模型中学习到的知识迁移到新遇到的文本图像数据中,从而实现对少量标注的新的文本图像的语义理解。
4)自然语言生成技术研发
本项目主要为了让机器在理解文字内容的同时,能够自主生成人类能够阅读的自然语言,可以和人类进行语言上的沟通交流,使机器不仅能够帮助处理海量的文档信息内容,理解文字信息背后的含义,同时能够将其提炼的核心内容信息通过语言文字表达出来,让人更高效地处理文字信息内容。
5)基于 AI 技术的智能文档关键信息提取技术研发
目前文档关键信息提取的技术主要针对特定的文档类型,比如合同关键信息提取、票据关键信息提取等。通过运用 AI 技术,可以实现在面对全新的文档类型时,准确地将其中的关键信息提取出来。因此本项目主要是将公司的智能文字识别与 NLP 技术进行集成并进行创新研发,实现对任意商业文档实现关键信息提取,从而更大的扩展 NLP技术的应用场景和范围。
(3)AI 底层技术平台研发项目
本项目重点开发 AI 底层技术,包括针对数据的自动生成技术、针对图像的分层技术,并进一步开发更加通用的自学习平台,使公司的 AI 模型在实际业务场景中的性能不断提升。对 AI 算法在实际运行中出现的高延迟、能量消耗与模型存储量过大的问题,开发深度学习模型压缩和加速技术,大幅度提升 AI 技术在移动端和边缘计算设备中的落地的广度和深度。
1)深度学习模型压缩和加速技术研发
深度学习技术在很多领域内取得了非常优异性能的同时,也受限于其高延迟、能量消耗与模型存储量过大的问题。特别是在移动端和边缘计算设备中,深度学习技术很难落地应用。因此,该技术主要是通过对模型的结构进行优化设计,并对模型的参数进行压缩,在基本不影响性能的情况下,大幅度降低深度学习模型的存储量并提升运行速度。该项目主要是通过对深度学习模型压缩和加速技术进行研发,使公司的核心 AI 算法能够在模型精度,运算速度和模型大小三个指标上有更好的平衡,从而大幅度提升 AI 技术在移动端和边缘计算设备中的落地的广度和深度。
2)基于深度学习的数据自动生成技术研发
该项目旨在通过基于深度学习的 GAN 技术、迁移学习、图像处理、版面分析技术、NLP 技术等技术进行集成和融合,自动生成出符合真实场景的各种类型的数据,包括但不限于多语言文本行数据、文档图像数据、自然语言数据等。海量的标注数据在 AI项目中占据举足轻重的地位,真实场景下,大量的标注数据面临着数据获取困难、标注成本高的问题。本项目通过数据生成技术自动的生成海量标注样本,从而提升公司核心AI 技术的整体性能和应用场景。
3)通用的 AI 自学习平台技术研发
该项目主要是通过研发 AI 自学习平台技术,构建公司的 AI 自学习平台。基于该自学习平台,可以将公司智能文字识别、自然语言处理、数据生成等 AI 技术的开发在一个平台上迭代升级,更高效地服务于实际业务。通过不断的增加实际业务场景的数据和深度学习技术,反哺 AI 自学习平台,使得公司的 AI 模型在实际业务场景中的性能不断提升。
4)基于 AI 技术的图像分层技术研发
在实际业务场景中,图像中往往存在多种要素叠加在一起的情况。例如印章会叠加在文字上面,水印会叠加在文字下面,有些文字也会叠加在图像上等等。叠加的要素会干扰对某一特定要素的处理。因此本项目旨在通过研发基于 AI 技术的图像分层技术,将图像中的叠加要素进行分离,从而使得后续针对特定要素的处理更加方便有效。
3、项目必要性及可行性分析
(1)项目的实施有利于公司响应用户需求,进一步提高在多语言、多场景、多版式的文档识别与分析的准确率
随着公司的产品应用市场越来越广阔,个人和企业用户积累数量的快速增长,用户需求和市场特征也在快速变化,用户的使用需求更加多样化。公司业务扩张的全球化,使得公司产品需要适应种类更加多样的语言。在真实场景中,可能遇到多文字方向、曲形文字、圆形文字、手写文字、公式、下划线文字、艺术体文字、复杂版面等复杂情况。用户对图表、票据、合同、报表、购物小票、手写文稿等场景下的文本图像质量要求越来越高。
基于此,本项目主要扩展智能文档识别与分析技术的应用场景,提升技术的应用性能,包括多语言场景、多文字方向场景、多样化字体和版面场景,强化智能文字识别技术研发,提升文本图像质量、识别准确率,进一步优化用户体验。将加强对复杂场景文档关键信息提取、扫描拍摄文件格式转换等技术的研发,紧跟用户需求和市场趋势变化,实现更广泛的产品应用场景的覆盖。
(2)项目的实施有助于提升产品性能,提高研发效率,实现新产品、服务的快速开发
文字识别技术水平的进一步提升高度依赖于自然语言处理技术的水平,在此基础上提供更为智能的商务智能分析与服务。在用户实际使用产品的过程中,智能文字识别技术可以获取到文本图像中每个字符的文本内容和位置信息,但对于证照、票据、简历、合同等各种类型的文档,需要同时利用文字的语义和拓扑信息,才能更好、更精准地对文字进行理解。
在产品开发过程中,研发人员一般针对有充分标注数据的各种类型的文本图像训练一个通用的语义理解模型,但在很多场景中,文本图像的类型会逐步增多,尤其在开发初期,特定类型的新文本图像的标注样本较少,产生语义理解技术无法使用的问题。
本项目将重点建设超大规模自然语言模型训练平台,以此为技术支撑,开发拓扑和语义信息融合及基于迁移学习的文字理解技术,在理解的基础上,进一步实现自然语言的生成。并在与智能文字识别技术结合后,使机器能对全新的、任意商业文档实现关键信息提取,提升用户体验,并减少开发过程中的样本数据规模量、减少标注量,提升模型性能及运行速度,降低新模型的构建周期,提高技术研发和产品开发的效率。
(3)项目的实施助力企业提升技术壁垒,引领技术变革步伐
软件产品迭代和技术更新发展速度非常快,尤其是面向全球的基于人工智能的技术和产品更是呈现日新月异的发展态势。
本项目重点开发 AI 底层技术,包括基于 AI 技术的针对数据的自动生成技术、针对图像的分层技术,并进一步开发更加通用的自学习平台,使公司的 AI 模型在实际业务场景中的性能不断提升。对 AI 算法在实际运行中出现的高延迟、能量消耗与模型存储量过大的问题,开发深度学习模型压缩和加速技术,大幅提升 AI 技术在移动端和边缘计算设备中的落地的广度和深度。
通过对 AI 前沿算法进行研发,可以进一步加深和扩展公司的 AI 核心算法技术,并和通用文档的机器识别理解场景深度结合,进一步提升公司在智能文档识别与分析领域的技术壁垒。
4、项目建设进度及投资
项目建设周期为三年、项目投资21,032万元。