随着OCR技术的蓬勃发展,早已解决了低速的信息输入与高速信息处理之间的矛盾,把人们从繁重的键盘录入劳动中解放出来。而壹沓科技在业务实践中仍然需要帮助客户完成大量复杂情况下的OCR识别,即便是办公领域的普通纸质文档识别,也会面临针式打印文本模板重叠、多次复印文档图像颗粒化、文档照片成像质量模糊等各类实际问题。
从OCR技术角度分析,根据所识别图像的环境,可将应用场景分为清晰且具有固定模式的简单场景以及非清晰且模式不定的复杂场景。复杂场景的文本识别的难度极高,原因包括但不限于:图片背景极为丰富,经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题,而且文本的布局可能存在扭曲、褶皱、换向等问题,其中的文字也会存在字体多样、字号字重颜色不一的问题。在很多实际情况下拍摄设备发生抖动、对焦偏差产生的失焦或者被拍摄对象处在运动中产生抖动模糊,还有文本印刷质量低下、书页陈旧破损、背景干扰过多或者光线条件差等问题,都会产生这类文本图像。
从OCR角度,这类文本的识别技术统称为——低质文本识别。
我们把OCR比做AI技术的一双慧眼,帮助人工智能看清所有需要处理的文字内容、符号信息,然而目前低质文本图像的识别问题似乎已经成为AI技术落地中的瓶颈。整篇文档中哪怕一小部分无法准确识别,从软件机器人流程服务的角度就没有办法让企业客户安心部署。除此之外,很多其他领域也高度期待这方面取得突破:
• 数字图书馆。随着互联网技术的发展和社会信息化进程的加快,越来越多的人们选择浏览电子书籍。而在我国其实有着浩如烟海的中文图书资料以及古书古籍资料正躺在各处的藏馆和图书馆等待着数字化,让更多人可以方便地阅读。这些书籍资料由于当时印刷技术条件的限制和保存时间的问题,都属于低质文本。加快数字图书馆建设进程,其重要性不言而喻。
•自动驾驶。近些年自动驾驶技术正逐渐走向大舞台,该领域技术自然需要目标检测和文字识别,例如路面、路牌和各种警示牌、提示牌的文字识别要求,以及周边汽车外观上的文字识别要求等。由于车辆处在运动中且天气环境不定,所以捕捉到的图像或视频帧中的文字很容易出现各类模糊。
•办公自动化。目前办公自动化已成为信息社会发展的必然趋势,许多信息已经电子化。但同样的纸质材料也越来越多,各类传真、复印件、报表、发票等材料由于处理、放置、人工磨损等问题都会导致文本图像低质化。要能够高度自动化地进行批量处理,或者无人值守方式的自动响应处理都对低质文字识别的可信度提出要求。
模糊图像——超分辨率技术来帮忙
那么有没有一种算法可以改善模糊的低质文本图像的质量呢?当然是有的,有一类超分辨率算法就可以提升模糊的低质图像的质量。
超分辨率技术的基本思想是采用信号处理的方法,从给定的低分辨率图像中恢复出高分辨率图像,可以在不改变当前硬件设备的前提下获得高于成像系统分辨率的图像。该类技术多应用与图像修复、图像重建、监控图像超分、卫星图像超分和医学影像等场景。
研究方向
•单幅图像分辨率提升
•从多帧连续图像中重建超分辨率的单帧图像,
•视频序列的超分辨率重建
•监督式超分和无监督式超分
基于深度学习的超分算法
2014年,Dong等人首次将深度学习应用到图像超分辨率重建领域,他们使用一个三层CNN学习低分辨率图像与高分辨率图像之间映射关系,该网络模型命名为SRCNN。后来Shi等人又提出了ESPCN算法,该算法相比于SRCNN大大降低了计算量,提高了重建效率。
不管是SRCNN还是ESPCN,它们均使用了MSE作为目标函数来训练模型。2017年,Christian Ledig等人从照片感知角度出发,通过对抗网络来进行超分重建。他们认为大部分深度学习超分算法采用的MSE损失函数会导致重建的图像过于平滑,缺乏感官上的照片真实感。他们改用生成对抗网络来进行重建,并且定义了新的感知目标函数,该算法被命名为SRGAN,由一个生成器和一个判别器组成。生成器负责合成高分辨率图像,判别器用于判断给定的图像是来自生成器还是真实样本。通过一个博弈的对抗过程,使得生成器能够将给定的低分辨率图像重建为高分辨率图像。至此,基于深度学习的超分算法已经可以胜任多数场景,并都取得了优良的效果。
效果示例
下面展示的例图就是基于超分辨率算法实现的提升低质图像质量的效果图,可以看到其效果可以达到很理想的程度。那么我们有理由相信,对于待识别的模糊低质文档,在应用合适的超分辨率算法提高图像质量后,是可以提高其识别准确率的。
专门针对模糊文字场景的OCR超分算法PlugNet
去年,欧洲计算机视觉大会(ECCV2020)发表的一篇相关论文可以认为是这方面的最新进展。“PlugNet:一种基于可插拔的超分辨学习单元的文本识别方法”( PlugNet: Degradation Aware Scene Text Recognition Supervised by a Pluggable Super-Resolution Unit)显著提升了通用文本识别方法在低质量文本上的识别效果,并在更加广泛的通用文本基线数据集中取得了目前最佳的性能。
提出了一个含有可插拔超分辨单元的端到端学习的文本识别方法(PlugNet)。通过在训练时增加超分辨支路来改善特征表达的方式提升低质量文本的识别结果,这也就意味着相对于原始的文本识别方案,PlugNet在应用时(前向计算)没有增加任何额外的计算量。
PlugNet的主要贡献在于:
1、利用特征级超分辨学习来增加用于识别特征的鉴别能力,进而提升文本识别结果的精度。
2、针对原始文本识别方法使用CNN压缩图像分辨率的问题,提出了使用特征压缩模块进行替代,尽可能的更好的保留特征原始的空间特性。
3、算法训练时间无显著增加,推理时间不变的情况下,低质量图像精度显著提升,非常有利于对实时和精度要求较高的应用场景。
其中重点在于识别模块嵌入使用了2个基于Resnet结构的超分辨基础单元和一个上采样部分,将共享的特征恢复成原始图像对应的超分辨图像。为了更好的训练超分辨单元、改善特征的表达,使用了如下两种特征增强的方式:高斯模糊和4倍上下采样。
作者选取了文本识别领域应用最为广泛的7个数据集进行测试,分别是SVT, SVTP, IIIT5K, ICDAR2003, ICDAR2013, ICDAR2015以及CUTE80。从下面的图表的测试结果可以看到,特征分辨率的提升有效的帮助校正模块定位到文字部分的边界,从而改善了文本识别的性能。
尤其是在模糊文本的识别问题上,PlugNet的表现相较于之前的文本识别方法有着较明显的改善。
甚至是人类难以识别的模糊字符,也能做到相当程度的准确识别。
背景干扰——背景消除&笔画重建
模糊的低质文档尚且可以尝试嵌入超分算法等方式进行质量提升,但常见的还有一类低质文档却无法应用超分算法,那就是背景很复杂的表格形式的文档。这类文档可能字迹印制清晰整洁,但文字和表格线多重叠、交错和颜色混合。如下图:
可以看到很多后印制上的字符与表格线以及背景字符重叠交错,这也大大提高了识别难度。
壹沓科技对于上述问题,提出了背景消除 —> 字符重建 —> OCR识别的一种有效的解决思路。
背景消除
对于每类场景下较为固定的表格的色彩和形式,可以使用传统图像算法消除背景中的表格线和背景字符,这样能极大的降低图像中目标文本检测和识别的难度。示例图如下所示:
字符重建
在背景消除后,部分目标字符也会受到或多或少受到影像,出现字符笔画的部分损失。对于该类字符,可以通过图形学计算,将出现笔画损失的部分字符尽可能的恢复,以提高识别准确率。示例图如下:
同时,壹沓科技的AI团队还在继续研究利用GAN对抗生成网络对文字缺失部分进行更好的还原与重建,以达到更好地低质文字的OCR识别精度。
壹沓科技认识到,与行业企业应用需求相比,目前OCR低质文档识别相关公开的研究还比较少,通用性的突破成果就更少。大量OCR工程实践还仅仅停留在一对一的场景中进行广种薄收的AI训练模式——通过海量数据增强来达到识别精度要求;然而面对业务场景越来越多形形色色的多样性和项目效率上的需求提升,这种方式往往显得笨拙而迟缓。
通用性的低质文档高可信识别已经成为当前AI落地中重要且紧要的任务之一。我们相信通过不懈的努力和专注的研究,更好地结合CV和NLP技术及并在领域知识图谱的引导下让OCR真正达到人类双眼的能力就在不远的将来。
关于我们
关注微信公众号
获取更多资讯