智能文字识别行业的核心技术是 OCR、NLP、图像处理等技术,是 AI 产业中快速发展的细分行业之一,不仅服务于个人用户的文档资产管理需求,也推动企业客户进行数字化、智能化转型。
1、全球智能文字识别行业
(1)所属行业在新技术方面的发展情况
智能文字识别是 AI 领域的一个重要分支,该技术融合了智能图像处理、基于深度学习的复杂场景文字识别、自然语言处理(NLP)等多项 AI 技术,算法涉及机器学习与深度学习。
1)机器学习与深度学习
机器学习是 AI 的一种底层算法,深度学习是机器学习的一个子集。机器学习的算法是建立在一个样本数据集上,在没有明确编程指示下,依靠模式和推理做出预测或决策的数学模型,且可随着数据量的增加不断改进算法性能。
深度学习是机器学习方法系列的一部分,利用多层神经网络从大量数据中进行学习。机器学习在处理问题时,需要先人工进行特征提取,然后根据提取后的特征进行分类问题求解;深度学习将特征提取与分类问题求解汇总在一个神经网络模型中,只需一次输入即可得到最终的输出结果,无需手工获取特征,所以能解决更为复杂的问题,且由数据驱动,有效数据量越大,模型的表现越好。随着深度学习出现,AI 算法瓶颈逐步被突破。机器从海量数据库自行归纳物体特征,按照该特征规律识别物体,图文识别的精准度得到极大提升。
2)自然语言处理技术
自然语言处理(Natural Language Processing,简称为“NLP”)技术是 AI 的一个子领域,用于分析、理解和生产自然语言,NLP 技术实现机器与人沟通的大前提,决定了机器对语言的理解能力。机器学习与深度学习大大推动了 NLP 技术的发展,使其具备可表达性、可训练性以及可泛化性。
3)结合深度学习、NLP 的智能文字识别技术
将图像中的文字转变为机器可读可处理的字符信息,是机器与现实世界进行视觉交互的重要基础,催生了光学字符识别(Optical Character Recognition,简称为“OCR”)技术。根据中国信息通信研究院、中国人工智能产业发展联盟与腾讯集团联合发布的《智能文字识别(OCR)能力测评与应用白皮书》,早期的 OCR 技术可追溯到 1870 年,电报技术和为盲人设计的阅读设备的出现标志着 OCR 技术的诞生。
从 2000 年开始,在线服务成为 OCR 的主要业务形态之一,这一阶段 OCR 技术仅在比较规整的印刷体文档识别上性能良好。2014 年以来,随着深度学习技术在 OCR 领域的应用,加上海量训练数据的积累,OCR 取得了飞跃性发展,适用范围明显扩大。2017 年以来,OCR 技术越来越多的和自然语言处理技术相融合,形成了智能文字识别技术,增强了对内容的“理解”能力,通过语义信息的关联,复杂场景下的文字识别能力得到增强。
与此同时,随着图像处理等技术的发展,能够将扭曲和畸变的文字图像进行矫正,也能够改善 OCR 性能。OCR 通过图像文字的识别实现信息录入,有两大核心优势,一是提高效率,相比传统的人工方式,显著提升信息录入效率;二是降低成本,通过机器代替人工,可大幅降低人力成本的开销。因此 OCR 技术具有较高的实际应用价值,是 AI 应用中商业推广落地较快的领域,是 AI 领域的重要分支。
《中国禁止出口限制出口技术目录》已将“印刷体汉字识别技术、程序结构、主要算法和源程序、具有交互和自学习功能的脱机手写汉字识别系统及方法、汉字识别的特征抽取方法和实现文本切分技术的源程序”等纳入限制出口的信息处理技术范围。为落实国务院印发的《新一代人工智能发展规划》,科技部启动了实施科技创新 2030“新一代人工智能”重大项目,并提出 2020 年度第一批项目申报指南,其中“复杂版面手写图文识别及理解关键技术研究”被列入“新一代人工智能共性关键技术”。
传统 OCR 技术针对特定场景的文字图像进行建模,受限于手工设计特征的单一表达能力和复杂的处理流程,一旦跳出当前场景,遇到复杂场景,模型就会失效。而基于深度学习、NLP 的智能文字识别技术可解决传统 OCR 的缺点,灵活应对自然场景下多形态文本以及手写文本:
(2)行业概况
相比传统简单文字识别,智能文字识别技术融合图像处理、OCR、深度学习、NLP等 AI 技术,具备更多认知与理解能力,可适应多语言、多版式、多样式等复杂场景,识别准确率大大提升,同时可基于理解能力进一步开发文档解析、分类、对比、审核等功能,是个人文档资产管理与企业数字化转型的关键。
从个人用户角度,用户对个人文档资产管理数字化意识和需求不断增强,合同、名片、发票、笔记等非结构化的纸质文档通过智能文字识别技术数字化后,用户可随时随地在手机、电脑等多终端进行查询、管理及分享,解决了纸质文档不易存储、分类、查询或提取关键信息等痛点,满足个人的办公、求职、学习等不同场景的需求。
从企业客户角度,企业数字化转型是将数字技术进行商业化落地,从根本上对业务流程进行优化,智能文字识别技术可将企业运营过程中产生的大量非结构化、非标准化的文档数据进行提取、存储、转化、解析,为企业客户节省人力成本,提升运营效率
解决了众多行业存在的人工操作效率低、业务处理流程长,将迎来巨大发展空间。根据 Grand View Research 报告,全球智能文字识别服务市场规模 2022 年达 106.5亿美元,预计 2022-2027 年复合年均增长率约 16.7%。
从下游行业应用来看,金融、物流运输的市场规模是占比最高的两个细分行业,且增速也最快,主要由于金融、物流运输企业在业务流程方面的基础信息化建设程度、投入意愿相对其他行业来说相对较高,在证照、单据、表格等文档的智能录入、分类、比对、审核方面进行降本增效具有较大需求,为智能文字识别技术的商业化快速落地带来基础。分国别来看,2022 年,亚太区智能文字识别服务市场规模占全球比重约为 22.7%,2022-2027 年复合年均增长率预计为全球最高水平,达 19.4%。亚太区的高速增长原因主要为:
1)中国、印度等部分国家经济的高速增长,经济活动的增长一定程度带来文档数据与信息量的增长,政府、企业对经济活动中产生的文档进行电子化存储、数据提取、分析挖掘具有巨大需求;
2)亚太区域互联网、智能手机的高速发展推动数据量爆发式增长,智能文字识别作为数字资产管理的关键技术,拥有巨大发展前景;
3)亚太区近年来对于 AI 技术研发、产业智能升级的重视,促使智能文字识别技术持续提升,以及推动企业对于此服务的投入。相比北美、欧洲等发达国家和地区,亚太区智能文字识别行业尚处于发展初期,处于高速发展时期。
根据灼识咨询,2022 年,中国智能文字识别服务市场规模为人民币 50.4 亿元,预计 2027 年市场规模将达人民币 168.9 亿元,复合年均增长率达 27.3%,远超全球市场总增速。按照下游客户类型及交付形式,智能文字识别服务可分为 C 端 APP、B 端基础技术服务、B 端标准化服务、B 端场景化解决方案四种形态。在下游个人用户和企业客户对文档资产数字化与智能化升级需求的驱动下,预计中国各类型细分市场均保持较高增速。
(3)行业发展驱动因素及发展趋势
1)人工智能列入我国“新基建”范围,政策利好加速产业新生态的构建
人工智能对社会与经济的影响日益凸显,各国政府先后出台人工智能发展相关政策,推动产业发展,将其上升到国家战略高度。我国中央及各地政府近年来先后发布了多条人工智能利好政策。2015 年 7 月,国务院出台《关于积极推进“互联网+”行动的指导意见》,首次将人工智能纳入重点任务之一,推动中国人工智能步入新阶段。
2017 年12 月,工信部颁布《促进新一代人工智能产业发展三年行动计划(2018―2020 年)》。2020 年 4 月国家发改委将人工智能列入“新基建”范围。2022 年,科技部等六部门制定了《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》,促进人工智能与实体经济深度融合,推动场景资源开放、提升场景创新能力。
智能文字识别作为人工智能应用中商业推广落地较快的领域,正成为人工智能新基建落地应用的“领头雁”,已成为人工智能新基建对外提供的重要智能化服务能力之一。人工智能融入实体经济的过程,也将为智能文字识别产业生态引入丰富的人才、技术、场景等要素。
2)深度学习、NLP 赋能下,智能文字识别技术不断提升
当前深度学习技术不断发展,加速了智能文字识别技术性能提升,为复杂场景的文字识别应用提供先决条件。文字识别应用范围从简单的印刷体数字、字母符号识别,逐步演进到自然场景下多形态文本检测与识别、手写体文本检测与识别等复杂情形。
同时,深度学习的出现,使 NLP 技术在阅读理解、机器翻译、问答系统等领域取得了一定成功,大幅提升智能文字识别的技术水平。近年来,全球智能文字识别领域公认最重要的国际学术会议之一国际文档分析识别大会(ICDAR)上举办的一系列顶级文字识别竞赛的识别率持续被刷新。
3)企业及政府的数字化转型需求不断提升
在第四次工业革命背景下,人工智能、大数据与云计算、5G 等新一代信息技术的快速发展与融合,使得数字化基础设施和产业生态已经成为了社会的“新基建”,其中人工智能是推动数字化转型与创新的原动力,将成为引领第四次工业革命的核心驱动力。企业及政府数字化转型意在实现运营自动化、管理网络化、决策智能化,有利于加快业务流程重组,有效地降本增效。
根据国际数据公司(IDC)2022 年发布的《中国数字化转型市场预测,2021-2026:通过应用场景践行数字化优先策略》报告,中国数字化转型支出中软件增长最高,2021-2026 年复合增长率 CAGR 达到 24.5%。中国企业信息化与 IT 投入近些年不断提升,且相比发达国家仍有较大上升空间。我国政府对企业及政府的数字化转型也推出了多项利好政策。
2020 年底,上海市委、市政府公布《关于全面推进上海城市数字化转型的意见》,提出“实现经济数字化形成新供给、生活数字化满足新需求、治理数字化优化新环境”的目标。2021 年 3 月,“加快数字化发展、建设数字中国”成为我国十四五纲要中的重要章节,其提出“加强关键数字技术创新应用、加快推动数字产业化、推进产业数字化转型”的要求,人工智能领域的“智能识别系统”是数字经济重点产业,并提出了“加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革”的目标。
2023 年 2 月,中共中央、国务院印发《数字中国建设整体布局规划》,强调“促进数字经济和实体经济深度融合,以数字化驱动生产生活和治理方式变革”,指出“整体提升应用基础设施水平,加强传统基础设施数字化、智能化改造。”智能文字识别技术可帮助企业与政府实现文档存量数字化、增量电子化,随着企业与政府数字化、信息化与智能化需求的不断提高,预计将持续推动智能文字识别服务行业发展。
4)个人用户对文档资产管理愈发受到重视
互联网、智能手机的高速发展,使消费者习惯于利用智能终端进行数据处理。
同时,在互联网时代下信息爆炸式的增长,且通常个人数据资产都较为珍贵,如合同、名片、发票、笔记等,使得消费者对个人资产管理数字化意识和需求不断增强。由于纸质文档不易保存,难以对信息进行快速的查询、分类、分享,因此用户更倾向于将个人文档通过扫描、拍照等方式数字化,在本地或者云端进行有效的存储、分类等,以便随时随地在手机、电脑等多终端进行同步、查询、管理及分享,满足个人的办公、求职、学习等不同场景的需求。个人用户对文档资产管理持续存在的需求将不断推动智能文字识别服务行业发展。
5)大模型技术引领行业革新浪潮,参与者竞相探索商业化落地场景
大模型是基于海量数据打造的模型,是实现通用人工智能的重要路径,通过无监督学习的大规模预训练和快速迁移,实现人工智能自动内容生成及内容判别,将人工智能从感知提升到理解的维度。大模型可以整合多种不同类型的数据和信息,实现多模态处理和分析,从而更全面地理解和解决复杂问题。从 2018 年 OpenAI 发布超大模型 GPT-1 开始,大模型在各应用场景崭露头角,其应用场景广泛且多样化。从自然语言处理到图像生成,从音频处理到视频、3D 场景创建,大模型能够应对多领域的挑战。
未来,大模型有望为更多应用场景带来更多机会和创新,人工智能领域的各参与者也在竞相探索商业化落地场景。大模型分为通用人工智能大模型和垂直领域的专业人工智能大模型,鉴于二者在应用场景、数据需求及成本上有所差异,推测未来会就不同目的共存。
通用人工智能大模型泛用性强,覆盖的通识知识范围较广但可能未经过严格验证,所需训练数据量及算力投入较高;垂直领域的专业人工智能系统专业性强,常与行业专业知识结合以满足真实场景下、特定行业的应用需求,所需数据及成本投入相对可控。智能文字识别等 AI 细分领域的技术有望结合大规模预训练等方式实现垂直领域 AI 大模型在实际应用的商业化落地。
(4)行业进入壁垒
1)技术与人才壁垒
智能文字识别行业具备技术密集的特点,智能文字识别技术涉及 OCR、NLP、图像处理、深度学习等尖端技术的融合,需要底层算法构建、模型训练、测试和部署等多个技术环节的配合。全球人工智能的技术和产品呈现日新月异的发展态势,例如如何在资源受限的移动端设备上设计兼顾性能和效率的轻量模型,如何通过语义及知识的深度挖掘提升模型性能,均是行业的研究热点与难点。
同时,市场需求也在不断变化,促使智能文字识别厂商根据下游客户的不同需求,开发标准化程度不同、形态不同的产品,提升识别的准确率、速度、稳定性,才能够在激烈的市场竞争中立于不败之地。智能文字识别技术在实际应用场景上的商业化落地,需要长时间的技术积累与持续的研发投入,也需要大量的优秀研发人员进行底层算法与应用模型的研究,新进入此领域的科技公司的技术追赶难度较大,同时也难以在短期内培养出尖端的研发人才团队。
2)客户资源壁垒
对于 C 端 APP 细分市场,先行进入市场的智能文字识别 APP,利用先发优势,已积累大量用户,形成了品牌效应。用户在产品内积累越来越多个人文档资产,迁移成本较高,使产品拥有较高用户粘性,这对本行业的新进企业形成了较高的用户壁垒,同时已树立的品牌效应也进一步加强用户壁垒。
对于 B 端服务细分市场,智能文字识别行业的头部企业通过多元化的 B 端产品线布局,在多个下游行业树立了多家标杆企业客户,其落地案例通常会形成较大行业影响,影响此行业内众多企业的供应商选择。另外,大型企业客户通常对于场景化解决方案需求更高,此类项目落地周期相对较长,更换成本较高。因此对于新厂商而言,形成较高客户资源壁垒。
3)销售能力壁垒
由于不同行业客户对于智能文字识别技术的需求与应用场景不同,智能文字识别服务提供商对于各行业场景的深度理解、研发出可在行业场景中落地的应用产品是其能否在本行业立足的关键因素之一。如为保险行业客户研发出智能核保、理赔流程的智能文字识别解决方案;为政府客户研发出智能证件审核的智能文字识别解决方案;为物流业客户研发出运单信息自动录入的智能文字识别解决方案。
因此,一家成功的智能文字识别企业不仅需要尖端研发人才,也同时需要可链接行上海合合信息科技股份有限公司 招股说明书154业客户需求和内部研发团队的销售团队,销售团队对客户所在行业的真实业务场景、业务逻辑、产业链上下游等有充分的理解,以客户的痛点、需求为核心,充分调动公司内部如研发、实施、售后服务等各类资源,以实现行业解决方案的落地。而行业的深度理解需要依靠大量案例的经验积累,这对本行业的新进企业形成了较高的销售能力壁垒。
4)数据资源壁垒
融合了深度学习、NLP 等人工智能技术的智能文字识别,其算法的设计和优化需要由海量的高质量场景数据驱动,需要在各行业各类大数据应用场景积累的海量数据对智能文字识别算法模型进行训练。所以相比市场新进厂商而言,进入智能文字识别领域较久、落地案例更为丰富的厂商在各类场景、各类行业数据的累积上优势明显,其智能文字识别算法模型更为成熟,识别准确率、识别速度也更为出色。这对本行业的新进企业形成了较高的数据壁垒。