什么是OCR?OCR技术详解

光学字符识别(Optical Character Recognition)简称为“OCR”。ORC是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术。一般包括以下几个过程:

1.图像输入

针对不同格式的图像,有着不同的存储格式和压缩方式。目前,用于存取图像的开源项目有OpenCV和CxImage等。

2.预处理

预处理主要包括二值化、噪声去除和倾斜较正,具体内容如下:

什么是OCR?OCR技术详解

二值化:大多数情况下,使用摄像头拍摄的图片都是彩色图像,彩色图像包含的信息量非常丰富,需要进行简化。我们可以将图片的内容简单地分为前景和背景,为了让计算机更快地、更好地识别文字,需要先对彩色图像进行处理,使图片只剩下前景与背景信息,即简单地定义前景信息为黑色,背景信息为白色,这就是二值化图。彩色图像和二值化图像处理前后对比如图1所示。

噪声清除:对于不同的文档,噪声的定义可以不同。根据噪声的特征进行消除处理,这就叫做噪声去除。

倾斜校正:通常情况下,用户拍摄的照片比较随意,很有可能拍照文档会产生倾斜。这时,需要使用文字识别软件进行校正。

3.版面分析

将文档图片分段落、分行的过程叫做版面分析。由于实际文档的多样性和复杂性,目前没有一个固定的、最好的切割模型。

4.字符切割

由于拍照条件的限制,经常会造成字符粘连、断笔等情况,因此极大地限制了识别系统的性能。此时就需要文字识别软件具备字符切割的功能

5.字符识别

很早的时候就有模板匹配,后来是以特征提取为主。由于文字的位移、笔画的粗细、断笔、粘连、旋转等因素的影响,极大地增加了提取的难度。

6.版面恢复

通常,人类希望识别后的文字,仍然按照原文档图片那样排列着,保持段落不变、位置不变、顺序不变,之后输出到Word文档或PDF文档,这个过程就叫做版面恢复。

7.后处理、核对

不同的语言环境中,语言的逻辑顺序是不同的。因此,需要根据语言特征的上下文,对识别后的结果进行校正,这个过程就是后处理。

本文来自投稿,不代表重蔚自留地立场,如若转载,请注明出处https://www.cwhello.com/366757.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

(0)
黑马程序员黑马程序员订阅用户
上一篇 2023年8月12日 15:32
下一篇 2023年8月12日 16:30

相关推荐

  • 网站SEO优化与网站后台程序有关联吗。

    现在很多的网络公司帮助企业建站,大多用的是一些开源的建站系统或者智能自助建站系统,少人网络公司可能是自己独立开发的建站CMS,那么。网站SEO优化与网站后台程序有关联吗?小编介绍一下。 网站SEO优化与网站后台…

    2022年10月28日
    019
  • spring框架怎么实现依赖注入?

    依赖注入的作用就是在使用Spring框架创建对象时,动态的将其所依赖的对象注入到Bean组件中,其实现方式通常有两种,一种是属性setter方法注入,另一种是构造方法注入。具体介绍如下:● 属性setter方法注入:指IoC容…

    2023年5月15日
    011
  • 教你淘宝助理是什么?淘宝助理有哪些功能?。

    淘宝助理这个词,一些淘宝卖家可能没怎么听说过。可是,这并不代表淘宝助理没有什么作用。淘宝助理可以帮助淘宝卖家解决很多在淘宝上遇到的问题,比如:订单太多,处理不过来;订单信息太多,整理起来比较麻烦,没关…

    2023年10月24日
    01
  • 分享营销型网站建设须具备哪些功能。

    营销型网站建设首先要符合seo规则、不要作弊,难道人家百度几千上万人团队开发的搜索引擎会发觉不到你。现阶段为止,搜索引擎优化排名已经成为了最重要的网站推广手段之一。因此要想成功做营销型网站建设,有一些功…

    2023年6月12日
    06
  • 小编分享如何设计更好的功能页面。

    功能页面的设计是网站建设或者网站升级、改造的难点之一。做好信息架构设计后,您的网站将拥有干净,有条理的感觉,可以更好地代表您的品牌。网站将如何发挥其作用,其功能页面如何吸引用户?小编科技作为高端网站设…

    2023年6月16日
    00
  • 如何利用UDP实现群聊聊天室?

    大家好,今天为大家带来了一个非常有意思的小程序——UDP实现的群聊聊天室。这个程序使用的UDP协议,并使用DatagramSocket的子类MulticastSocket实现组播,可以部署在一个局域网内的多台电脑上,并可以实现文字群聊。…

    2023年5月12日
    05
  • 通过js实现复选框操作教程(附代码)

    复选框操作 获取同名元素,返回该元素的数组 document.getElementsByName(“name”); 实现效果如下 示例源码: 无标题文档 全选/全不选 1 2 3 4

    2018年4月2日
    0415
  • 经验分享如何添加加载项。

    在软件中,通常通过设置或工具菜单找到“加载项”或“插件”选项,选择需要添加的加载项进行安装。具体步骤因软件而异。 (图片来源网络,侵删) 在计算机软件中,加载项(Addons)是一种扩展功能,可以增强现有程序的…

    2024年6月27日
    00

联系我们

QQ:951076433

在线咨询:点击这里给我发消息邮件:951076433@qq.com工作时间:周一至周五,9:30-18:30,节假日休息