大家好,欢迎来到IT知识分享网。
生活当中,文字是无处不在的,它贯穿了我们的衣食住行。当你进入停车场,自动识别的车牌号是文字;当你走在街上,靓串串、麻辣火锅等一个个门头也是文字。
在人类漫长的文明史中,文字从诞生就是传递最重要信息的方式,人们可以通过识别文字,来判定其中所包含的解释、警告、身份等信息。
但是,你能辨识这样的文字吗?
这是ICDAR 2019的比赛题目,ICDAR是由国际模式识别学会(IAPR)组织的专业会议之一,是文档分析与识别领域公认的最重要的国际学术会议,ICDAR的比赛有“文字识别世界杯”之称。在这种赛事上,其题目也是学术界和产业界的热点问题。单靠人眼去一个个辨识,准确无误地念出这些字都得费不少功夫,那么你有没有想过,如果把这种难题交给机器,机器又如何识别这些文字呢?这就要谈到我们今天的主角——光学字符识别(OCR)了。
OCR的跨世纪之路
世纪前的人类,一直有个梦想,就是拥有一台能读懂字符和数字的机器。
1929年,德国科学家陶舍克做了一个实验,利用10块模板对应10个数字,通过投影对10个数字进行识别,将图形中的一个个字符转换为一个个字元,并保留其格式,最后将图像文章转换成了文字文档,并获得了OCR史上的第一个专利。这一项专利是通过监测暗和亮的模式来确定文字的形状,这也是OCR一词的由来——光学字符识别。此时,虽然有了OCR技术,但这一项技术距离应用仍还有很多年。
陶舍克设计的文字阅读机器原型
20世纪60年代,OCR被应用于邮政代码识别,帮助邮局做区域分信。至此,这种技术有了应用场景,但却是一个非常窄的应用场景。OCR首次被商用发生在1965年,当时的纽约世界博览会,IBM展示了一款OCR产品——IBMI287,这款产品可以识别印刷体的数字、英文字母及部分符号,但必须是指定的字体。
这是国际上OCR技术的一部分发展史,在国内,OCR技术起步较晚。最早做中文OCR识别的也是IBM,60年代、70年代左右,IBM的两位科学家,用纯模板匹配的方法,实现了大概1000个左右汉字的OCR识别。
但坦白说,这些发展在技术上,并没有实现突破。直到2000年,中国OCR技术迎来了第一次突破。趁着互联网浪潮的兴起,IBM中国研究中心和清华大学合作,用OCR技术把大量的书籍包括古籍变成可供检索的网页,将中文OCR识别迅速推向应用。这一项应用实在是惠及了当年无数混迹于网络的“时代先锋”们,他们实现了不必买实体书、在网络上就能方便地查看诸如《周易》、《春秋》、《诗经》等经典古籍。也是在这期间,OCR技术有了飞跃式的发展,被迅速推向应用。有意思的是,这一波OCR被广泛应用,互联网方兴未艾是一方面,另一方面,也伴随有着计算机“眼睛”之称的扫描仪发展,2000年前后,台式扫描仪普及,OCR这项技术有了当时最广泛的应用场景。
2005年前后,随着摄像头的普及,OCR有了另一个应用场景——车牌识别。当时主要采用传统的文字识别方法。所用技术是先通过预处理,单字分割、特征提取、分类等各个阶段完成识别流程。它有一个问题,因为都需要通过手工选取特征,再进行分类,场景的普适性比较差。另外它不是端到端整体的识别过程,逐级叠加的错误率最后会放大。基于传统方法做的OCR应用主要集中在特定场景,如证件识别、车牌识别、发票识别等。
文字识别的传统方法
这样就带来一些限制,如要求必须输入高清扫描件,背景要简单,文本要整齐等等。比如大家可能经常会碰到,进停车场的时候,如果车头的角度稍微有点倾斜,虽然摄像头已经拍到车牌,但因为并不是正对车牌,停车场的杆可能就是不给你抬,需要你把姿势摆正了,才能给你“网开一面”;再比如你做书籍识别,如果扫描出来的图像中的字体是不规整的,识别结果也非常容易出错。这是因为当时的技术适合一些限定的场合、限定的格式下进行文字识别,并不能够做到普适场景。很多常见的复杂场景的识别,当时的技术识别率也比较低。
深度学习之后,OCR技术被更广泛应用
2012年,Google提出Alexnet(深度学习卷积神经网络),深度学习突飞猛进,使得OCR技术又有了再一次跨越提升的机会,能够突破它的平台期。整个的基于深度学习的文字识别技术,也得到了突飞猛进的进步。
Alexnet模型结构
基于深度学习的文本识别技术一般需要两个阶段,文本行检测和文字识别。
对于文本行检测模型,这里要介绍一下到CTPN。CTPN是在ECCV 2016提出的一种文字检测算法,它是较早被广泛应用到文本行检测的深度学习模型。原理是通过目标检测模型形成文本框序列,再通过后处理完成形成文本行。基于深度学习的方法,可以检测复杂场景下的文本,相比基于手工选取特征的方法,准确率有了明显的提升。
CTPN网络结构
什么样的场景算是复杂场景呢?好比一块指示牌,它的背景非常花哨,而且有一些图案非常容易被检测成文本,通过深度学习的方法,就可以比较好地检测出这种场景下的文字。
检测出文本行以后,下一步就是文字识别了。对于文本识别模型, 比较有代表性的是CRNN,它是由华中科技大学的白翔老师2015年提出的,到现在还是被广泛应用的文本识别模型之一。
CRNN网络结构
CRNN模型的有着很多优点,比如它可以直接从序列标签学习,不必给每一个字符打标签;比其它模型参数更少;对要识别的序列对象长度没有限制等。基于深度学习的文本检测模型和文字识别模型的应用,使得OCR技术在复杂场景识别准确率方面的有了明显的提升。
同时,移动设备的不断更新也衍生出了更多的OCR需求。2015年前后,智能手机渐渐成了平常物,伴随而来的是各大制造商不约而同地在摄像头方面都卷了起来,手机成像的清晰度大幅度提升,OCR的应用场景也更加丰富。2016年左右,经过差不多一年的发展,移动设备本地算力的提升,使得摄像头的清晰度更高、能承载的应用也更加丰富。
这样,算法的提升,场景的丰富以及设备能力的发展,共同促进了OCR技术更广泛的应用,如招牌识别、海报识别、以及联想研究院目前正在做的智慧教育领域的智慧阅卷等等,逐渐涌现出来。
一横一竖,联想OCR的未来
前文提到2015年前后,智能手机的普及,带动了OCR技术的落地应用。也是在2015年,联想研究院的HCI团队针对智能手机的场景,提出了See+概念。比如说,在一本杂志上看到一个电话号码,机器自动识别并且拨打;在网页上看到一个网址,可以自动扫描并且登录;扫描到一个地址,可以自动进入地图并且帮你开启导航;甚至在一些倾斜场景下,当你看到某段文字,文字能够自动被识别,或者在这个基础上进行翻译、搜索。
当然,此时联想的OCR技术还停留在概念阶段。伴随着OCR算法能力的提升,联想看到了一个“弯道超车”的机会,2017年,基于技术发展趋势,以及算法、算力,数据三方面逐渐成熟,文字识别和人脸识别成为了AI产品落地最合适的技术点之一,联想开始进入文字识别赛道,投入研发自己的智能文档扫描技术,这一年,联想已经开始在移动设备端引入了深度学习框架去解决文档校正的问题,在当年就做到了平均IoU(交并比)显著高于业界平均水平。
2018年3月,联想文档扫描技术在手机产品成功落地,是业界首批支持此功能的手机设备。(Google直到2018年5月,才在Google Lens加入了文档扫描功能。)此后,联想又陆续研发了手写识别、文档版面分析等技术。
离开应用场景,技术就是无本之木,无水之源。首先在教育领域,联想做了许多OCR技术与教育场景相结合的应用。在联想备授课软件中,可以通过拍摄、扫描,使得试卷自动进行电子化;考完试,可以通过智能错题本帮助老师自动统计每道题的准确率;并且,联想OCR还应用于联想天骄系列产品,户识通过手指文字就可以识别别中英文以及解释和发音,实现“哪里不会点哪里”;联想新研发的手写去除技术,可以实现当孩子出现错题,家长不需要手工擦除手写答案,拍照后自动生成只保留原始题目的错题本,用于反复练习。
除了教育场景的应用,联想OCR还赋能了智能客服、智能财务等场景。举一个例子,当你的电脑出现蓝屏,你可以拍一张照片给联想智能客服系统,就能帮你定位当前电脑之所以蓝屏是出现了什么问题。当然,还有前面提到的办公场景的文字识别,以及平板上做的文档扫描技术。值得一提的是,2021年,带有文档扫描技术的联想平板电脑出货量达到了1200万台。
在各类OCR技术相关顶级学术会议举办的竞赛中,联想也不断斩获佳绩,包括在前文提到的ICDAR 2019,联想获得了两项冠军,在ICPR 2020,获得了六项冠军。2021年,联想参加ICDAR的文档检测竞赛,本次竞赛吸引了众多学术界与企业界的学术组织和专业机构参赛,其中包括中国科学技术大学和西安电子科技大学等高等院校,德国人工智能中心(DFKI)和NAVER(社交软件LINE的母公司)等国际知名公司,以及网易、58集团、浦东发展银行和建设银行等国内专业领域的知名机构。经过激烈的角逐,最终联想研究院智慧教育团队以0.(相似系数)的高精确结果,击败所有竞争对手,夺得文档检测竞赛冠军。
ICDAR 2021,联想获得文档检测竞赛冠军
这些都只是现在的成绩,如果要描绘联想OCR未来的技术蓝图,可以用“一横一竖”来总结。技术演进的竖轴是内功,联想OCR会继续深耕识别技术,识别内容从文本识别,公式识别,到表格结构识别,以及文档结构识别,实现文档整体识别理解技术;横轴是场景扩展,从教育场景出发,在更多的场景中实现技术落地。
一横一竖,联想OCR的未来
综上所述,联想OCR强调的从来不止是数据或者算法,而是数据、算法和场景的深度融合,联想是一个将技术落地于应用的推动者。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/166149.html