中文版 English 加入收藏

技术服务

欢迎您,来自深圳市的朋友

站内搜索

当前位置:首页 - 技术服务 - 基础技术论文

机器视觉里OCR/OCV的最新应用

    机器视觉最早的应用之一就是光学字符识别(OCR),在三十多年前就已经应用。用来读取步枪和手枪上面的字母和数字,给美国军队返回存货量。字符的条件也千差万别。自动读取的目的就是避免操作员读取时的抄写错误。
    
一定条件下的字符中(考虑到今天的先讲的照明和高分辨率固体相机在那时还没有),这个系统需要设计成用自动防故障模式操作。如果它不能读取字符串中的一个字符,它将会提示这个特殊的字符,然后操作员将会重新来确认读取。初始系统会有一个铃,用来提示操作员来做判断。对这个系统最早的修改是将铃换成灯,因为操作员是个聋子。这也显示出你永远不知道你的客户是怎样的。
    
光学字符识别(OCR)和光学字符验证(OCV)尽管有相似的应用,但它们是两种不太的需求。验证就是具备事先知道字符串的前提条件,只是需要确认在一个指定的地方是否存在指定的字符。另一方面,识别就是不知道在指定位置呈现的字符是什么,但是是26个字符其中之一。
    
除了工程上的细节外,这里有两种基本的OCV应用:
    
验证字符是否正确?
    
系统必须确保字符的质量,印刷质量检测(PQI);
    
顺便提一下,许多公司已经开发出这个应用,these are not mutually exclusive
    
在制药工业里,日期和标签码验证不仅需求这样的系统来验证字符的正确性,而且需要验证它们的完整性和排除读错的可能性,这是由于印刷错误(对比度下降,字符漏掉等等)。因此,视觉系统对这些应用是很有用的,它们能检查字符的表面特征(sub-features),比如指定行和圈。
OCR/OCV应用中,因为经常在imprinting头中有平移误差,视觉系统必须在它能完全进行读取或验证之前进行定位分析。通常来讲,首先要进行这个条码的定位,然后进行每个字符的定位。一旦每个字符定位好,它就能检查它们的特征,比如字符的线宽,孔和裂口和它们的完整性。因此系统的灵敏性通常会提前设定。
    
为了深入了解应用在OCR/OCV平台上的应用最新技术,我们采访了以下机器视觉供应商:
    
Bryan Boatner 康耐视IN-Sight产品市场经理
    
Ulises Salas 松下自动控制系统部门的视觉技术支持专家
    
Jim Anderson SICK机器视觉产品经理

    1. 您能介绍一下你们的OCR/OCV产品线吗?并讨论一下你们怎样在这些应用中来区分你们的产品,如果你们有多种?
[Bryan Boatner, Cognex] 康耐视提供为特殊应用和工业提供多种OCV/OCR解决方案。首先,康耐视提供高速视觉传感器,在能够容忍差的文本和噪声背景的基于灰度的算法下,它能够以低于1毫秒/字符的速度读取字符。其次,康耐视提供PC视觉软件,它能够在OCV应用中容忍激烈的非线性比例变化。针对包装操作的OCV/OCR方案应用于非固态容器,比如字符在可视上剧烈变化的纸袋和提包上,还有在这个过程中由于随机空间扭曲造成的对象形状的改变。另外还有针对任意方向的柱状表面的多相机OCV/OCR方法,比如玻璃瓶,小瓶和化妆容器,这个方法能够及时检测整个表面。最后,康耐视提供晶片的ID读取器,用来读取半导体晶片上硬标记,软标记和超软标记的条码和字符。
[Ulises Salas -Panasonic] 我们的A230 OCR/OCV图像字符检查识别功能能区分产品类型,字符验证功能检查印刷质量。结合这两个有力的特征,A230易于应用。A230提供背景suppression功能能在噪声背景下读取字符。它还能识别Dot矩阵,连接的字符,芯片和模糊的字符。
[Jim Anderson -SICK] SICK 提供多个OCR/OCV方案,从诸如我们的CVS产品线的简单视觉传感器,到我们的IVC智能相机,到streaming相机,比如我们的Ranger相机,它们利用应用的工具来完成几乎所有应用类型的任务。
    
CVS4是一个进入OCR/OCV应用传感器。它具有13种标准字体,安装更加简单,减少了需要训练传感器的时间。这也并不是说如果客户需求的字体是没有被预安装。它会学习并存储字典中,可达到56个字符。IP 67 设计和集成的光源是的CVS4成为一个在包装工业里OCR/OCV应用的性价比高的好方案,而在这个行业里日期码读取的需求正在不断增长。CVS4也具有一个时钟和日历,它能在传感器可能寻找改变的日期和时间时继续工作。
如果工作的复杂性提高,而且在OCR/OCV中还有其他检测工作要做,具备读码功能的 IVC-2D相机就是一个很好的方案。IVC-2D允许较大的视场和不同的standoffIVC-2D还允许问题位置的变化,甚至旋转,它仍然能够解码。对于用户定义的文本,它比起一个基于传感器的方法更加灵活。

    2. 你们产品定位于哪些特殊的OCR应用呢(或在哪些工业里)?
[Ulises] 糖果和瓶子上的日期和标签:包装
VIN数字和驾照: 汽车
晶片上标签数字和标签码:半导体
冲压金属部件上的码: 冲压工业
黑塑料模具上的标签码:铸造工业
我们主要在包装、汽车和半导体行业里应用A230
[Jim] 在我们的食品和饮料消费中OCR的应用似乎在上升。它们甚至开始给OEM施压,包括在印刷和打标机器上有个选择。对这个领域的OEM来说,给他们的机器添加成本是非常困难的,因此既能提高能力又能降低自身成本就是来自SICKCVS4这个基于传感器的方案。
    
因为这是一个真正的OCR应用,相机不知道下一个字符串中的字符是什么,因此它又必要更加灵活,使得在每个不同数据本身上调整并给出一个可靠的找到的读出的文本。SICK针对更困难的OCR应用提供多个解决方案。IVC2D允许用户定义期望文本的位置并同时做其他比如测量商品上标签的位置等这样的检测。它既可以读取一维码,还可以读取二维码,这使得它成为一个多变的方案。
SICK也提供了一个紧凑的相机传感器,叫做ICR803,它也能读取几乎所有类型的条形码并做OCR。这是一个跟在房子中集成照明一样很好的传感器。
[Bryan] 在食品、饮料、医药和消费类商品包装上应用的大多数文本读取几乎全都是OCV,但是一些食品和饮料应用有时也做reading,因为他们不仅想知道这个码是否错误,而且也想知道它是什么。汽车、半导体和电子行业使用大多数OCR。比如,康耐视产品在汽车行业定位为零件(part)数字跟踪和在半导体和电子行业定位于零件数字读取和验证。

    3.在你们产品定位的工业中有哪些特殊的OCV应用呢?

[Jim] 消费者正在看到OCV应用帮助他们增加他们产品的整体表述。在tauaht-in或保存的图像中进行日期和系列数字匹配在条码工业里经常可见,但是消费者对包装的要求越来越高。如果日期印刷的很清晰,就能导致产生这种产品比另外一种要好的整体感觉。通过使用OCV,印刷材料的presentation能被更近距离地监视。SICK有一系列的解决方案,包括归在传感器一边的CVS4ICR803,归在智能相机领域的IVC2D
[Bryan] 康耐视产品定位于医药、食品和饮料包装行业的日期/标签验证。医药制造者需要确保产品信息被正确地印刷,而且标签被贴在正确的产品上。在食品制造中贴错标签的allergens会引起昂贵的产品回收,FDA跟踪指示需要制造者去跟踪成分,比如花生、大豆、牛奶、鸡蛋、贝、果实和小麦。康耐视视觉系统用来验证正确的allergen标签。它们也能读取条码,并与目前错误标记的产品进行匹配。康耐视视觉系统也用于邮政/印刷和文件处理行业中的位置和序列验证。大多数情况下,这些是混合的读取/验证应用,因为即使我们可能知道期望的字符串,但消费者通常想知道如果与期望的字符串匹配不上时读取的字符是什么。

    4. 您会给您的消费者哪些参数化建议呢?字体吗?
[Bryan] 康耐视能读取任何类型的印刷字体,但是我们发现像OCR-ASEM这样的机器可读字体通常在看起来相似的字符之间提供最佳的分离。高度和宽度不是必要的因素,只要笔画宽度能够满足。对于间隔来说,字符应该是没有接触的,但是我们更高的终端产品能够处理接触的字符。康耐视软件支持固定的宽度或间距可变的字体。如果印刷是干净的,需要两个像素宽的笔画;如果印刷不清晰,则需要四到五个像素宽的笔画。这里没有字符串长度的限制,只要字符有充足的笔画宽度。但一个干净的背景总是需要的,我们的工具能读取呈现出非常混淆背景的字符。通常来讲字符与边界之间至少有一个字符的区域,但是,软件能够配置成来容忍没有这样条件的地方。

    墨点印刷通常会出现,这是一个最大的挑战,因为会导致大的倾斜和结果取决于产品形状的非线性比例变化,而且产品任何的加速或减速都可能产生墨溅。
[Ulises] 我们对消费者仅有的需求就是提供字符的原始字体,以至于我们能在个体和开始检测的块上创建字典。
[Jim] 很显然,我们对选择的东西,比如字体、字符尺寸,在哪里印刷和怎样印刷,的权力越大,我们制定出高效的整体方案的信心就越大。使用像OCR-aOCR-b和其他固定宽度这样的字体,能使得有对所有字符指定宽度和诸如B8这样相似的这些类型字体的区分更加可靠。字符和背景间的高对比度总是有帮助的。在点阵矩形字符上推荐实线字体,但是印刷的重复性比起印刷的类型来讲影响更大。
    
我们的相机有把它们变成适应所有不规则印刷类型的功能,但是对它们较小的调整对整个系统的速度有很大的影响。

    5. 在您的OCR/OCV产品中,您能够提供一些原理知识吗?
[Ulises] 我们的软件使用基于神经网络技术的字符学习函数,这可以允许对识别注册多种字符。一旦个体学习了这些字符,即使它们尺寸改变也能被识别。
[Jim] 在技术处理过程中,在每个分离的字符上会自动创建一个ROI(感兴趣区域),根据在相机设置二值化的地方的灰度阈值设立容忍度。这就是一个整体概括。
[Bryan] 我们设计我们的算法来满足用户在应用中可能碰到的各种各样的实时变化。我们针对比例变化、混淆背景有分离参数控制,还有针对高速应用的优化读取模式。我们为了优化读取次数对OCR提供fielding

    6. 在你们的OCV产品中,系统除了验证还做其他什么吗?分析易理解?美学?
[Jim] IVC2DCVS4运行时,在解码字符串中对每个字符会得到一个匹配百分比或可读性值。在智能相机中这是一个常见的特征,但是在CVS视觉传感器中是包含在内的非常高端特征。
[Ulises]  没有
[Bryan]  我们的IN-SightVisionPro产品线都是通用目的的机器视觉产品,因此它们不仅能执行OCR,而且还执行粗糙的印刷质量检测,还有在产品中读取一维码和二维码来验证与人可读文本的匹配。

    7. OCR应用中的识别率是什么?在OCV应用中验证率是什么?
[Bryan] 识别率与验证率是不相干的。在我们最近投放的IN-Sight 5600中,OCVOCR工具能以大于1毫秒/字符的速度工作,在一些情况下能快到每个字符3ms,也就是一个20字符的字符串只需要大约6毫秒。
[Ulises] 对于OCR, 识别率取决于字符尺寸和背景的噪声多少。假如字符在一个好的对比度下是FOV1/4, 可以达到每个字符10毫秒。
[Jim] 对于像CVS4这样的视觉传感器来说识别率取决于照明的设置。对比度越高,触发的也就越快。找到并解码一个字符串(20~30个字符)的平均时间是40毫秒。
IVC-2D相机的识别率取决于视场或相机期望找到字符的区域的数目。定义的field越多,相机越快。一个IVC-2D程序的读取步骤大约在65毫秒(20~30个字符)。IVC在做OCV时更快一点,可以达到大约40毫秒(2030个字符)

    8. OCR中,在最高对比度条件下的精度多少?没有读取?误读?
[Ulises] 通常情况下我们在99.5%100%之间
[Jim] 在好的条件下,CVS4IVC-2D有很高的重复性。它给出一个非读取输出使得用户得到一个确认信号。对于好的和坏的数据,对它们进行解码然后输出。这使得用户可以看到哪些字符出现问题,并对对应的传感器或印刷做出调整。
IVC2D 相机也是高重复性,特别是在好的对比度下(比如,好的照明,可重复的文本位置和好的印刷)。OCROCV工具都给出输出可读性或每个字符匹配百分比的选择。
[Bryan] 再次重申一遍,精度和非读取测量是不相干的。我建议用户在他们实际的产品上类通过测试来决定精度,不读和误读率。我们的OCV/OCR工具应用在许多比如半导体和制药应用的关键任务中,可以达到99.99%的精度。
    
我们的软件输出一个百分比的匹配,还有一个difference accept分数,这个分数表示读取的字符相对于下一个最高分字符的接近程度。除此之外,我们在训练字体时提供一个混淆矩阵,这样用户能预测可能混淆字符以至于他们可以设置他们在最优化下的接受度和difference accept阈值。

    9. 在你们新一代产品(光源,照明,视觉硬件、视觉软件、相机等等)中你们的OCR/OCV产品技术构造中哪些先进会带来更卓越的性能呢?而且,这些先进以价格/性能的形式有哪些特殊的优点呢?
[Jim] 机器视觉中的技术全面在改进,使得像OCR/OCV这样的应用比以前更加标准。在更加激烈的价格战中更高质量的照明和光源将继续会使得新用户更清楚地看到通过使用机器视觉来节约成本。像使用灰度级图像来代替二值化图像这样的技术,使得低对比度应用会出现在以前没有使用的地方。
[Bryan] 在我们的PC视觉产品中,我们将PatFlexPatMax(我们的专利模式搜寻算法)集成到我们的OCVMax算法中,在困难的墨点OCV应用,这里有许多的非线性扭曲倾斜和比例改变,现在的性能会得到最大的提高。
    
对于我们的视觉传感器,硬件性能上的提高使得我们可以以更快的速度读取和验证条码。
[Ulises] 因为OCR/OCV对任何视觉系统都是一个艰难的任务,我们不得不开发更加鲁棒的软件,包括利用预处理滤波器来创造更好的对比度。

    10. 在接下来的两年里你会预测机器视觉技术(视觉引擎,照明,相机)会有哪些潜在的变化呢?三年里OCR/OCR的性能又会更好吗?
[Bryan] 随着DSP和微处理器继续提高速度,我们OCV/OCR工具的速度性能将会得到提高。
[Ulises] 我相信为了得到好的读取软件将会在消除图像中的噪声做的更好。
[Jim] SICK继续提高用于三维的机器视觉的边缘分割技术。三维视觉将允许用户解决那些在过去还不能做到的应用。添加到产品上的字符或码对于消费者来说会不再明显。这就需要生产中拥有更加可重复的处理。在没有标签可贴的汽车和制造工业中会有更多的应用,但是会有浇铸上去的或嵌入零件的文本。这些应用对于标准二维系统来说更加困难,因此三维数据提取将继续用于这些可解决的应用中。

    11. 对于OCR/OCV应用来说,采用机器视觉技术仍然会有障碍吗?它们是什么呢?
[Ulises] 通常来说,公司不知道一个视觉系统能值多少而且价格对于一个中小型公司没有吸引力。
[Jim] 在机器视觉的OCR/OCV中仍然有一些障碍,但是它们对于其他机器视觉应用来说不是太大的困难。
指出机器视觉主要优势是很重要的,自从1980年采用首个系统以来。视觉传感器的易编程性和智能相机得到很大提高,使得解决方案成为现实,但像一个巨大的和已定义的过程。面对OCR/OCV应用有着同样的问题。对于一个非常合理的价格而没有性能上的担忧,消费者能得到一个非常solidOCR/OCV解决方案。
[Bryan] 我任务机器视觉的易用性总是一个适用的障碍。软件特征的改进可以帮助定位易于使用包括预先训练字体和调整。拥有预先训练的字体,消费者使用向OCR-AOCR-B的标准机器可读字体,而且SEMI不需要手工训练字体。对于需求常见字符的消费者来说,我们提供一个易于使用的训练向导。一旦字体被训练,我们提供一个调整按钮,来自动比较训练的字体和实时字符,并采用一个实时比例变化来提供最优的结果。

    12. 对于准备采用定位OCR/OCV应用的基于机器视觉方案的用户来说有哪些建议呢?
[Jim] 我认为对于采用OCR/OCV的用户最好的建议是得到关于这个应用的所有信息。怎样定义这个应用将决定解决方案的速度。如果这里有诸如文本位置、文本颜色和字体类型的参数,就公开的去讨论。最经常引起问题的视觉应用的部分是需求的真实定义。知道这些参数,我们就能在SICK工程师的帮助下使用来自影像传感器到条码扫描器和显而易见的机器视觉创建一个性价比高,可靠的方案。
[Bryan] 作为一个以前的应用工程师,我建议对你要应用在OCV/OCR平台上的产品进行彻底的评价。确保在变化的照明、比例和速度下测试系统,以至于你能够确保视觉软件有一个需求的性能。还有寻找一家出售宽范围OCV/OCR解决方案的公司。而且你将确保有解决方案能够适合你们特殊的应用需求。
[Bryan] 我们在市场中能找到许多优秀的OCR/OCR检测软件和视觉机器,如果你没有好的照明它们都是无用的。但是,因为照明大多数情况下是个常量,这里有影响图像的其他因素,不仅有照明反射,而且背景中的噪声。在这种情况下,视觉系统软件必须能够克服这些噪声,并且对字符有一致的读取。