什么是光学字符识别 (OCR)？

机器视觉 2021-09-22 12072

光学字符识别，简称OCR，用于描述将文本图像转换为机器编码文本的算法和技术（电子和机械）。我们通常从软件的角度考虑 OCR 。也就是说，这些系统：

接受输入图像（扫描的、拍摄的或计算机生成的）
自动检测文本并像人类一样“阅读”它
将文本转换为机器可读格式，以便在更大的计算机视觉系统范围内对其进行搜索、索引和处理

什么是光学字符识别 (OCR)？

OCR 系统也可以是机械的和物理的。例如，您可能熟悉电子铅笔，它会在您书写时自动扫描您的笔迹。完成书写后，将笔连接到计算机（通用串行总线 (USB)、蓝牙或其他方式）。然后，OCR 软件会分析 smartpen 记录的动作和图像，生成机器可读的文本。

OCR的应用

OCR 的应用有很多，最初是为盲人制造阅读机（Schantz，1982）。从那时起，OCR 应用程序有了显着的发展，包括（但不限于）：

自动车牌/车牌识别 (ALPR/ANPR)
交通标志识别
分析和击败网站上的 CAPTCHA（完全自动化的公共图灵测试，以区分计算机和人类）
从名片中提取信息
自动读取护照的机读区 (MRZ) 和其他相关部分
从银行支票中解析路由号码、帐号和货币金额
理解自然场景中的文本，例如从智能手机拍摄的照片

方向和脚本检测

在我们详细讨论 OCR 之前，我们需要简要介绍一下方向和脚本检测 (OSD)，我们将在以后的教程中详细介绍。如果 OCR 是获取输入图像并以人类可读和机器可读格式返回文本的过程，那么 OSD 是分析图像以获取文本元数据的过程，特别是方向和脚本/书写风格。

文本的方向是输入图像中文本的角度（以度为单位）。为了获得更高的 OCR 精度，我们可能需要应用 OSD 来确定文本方向，对其进行校正，然后应用 OCR。

脚本和写作风格是指用于书面和打字交流的一组字符和符号。我们大多数人都熟悉拉丁字符，它构成了许多欧洲和西方国家使用的字符和符号；但是，还有许多其他形式的书写方式被广泛使用，包括阿拉伯语、希伯来语、中文等。拉丁字符与阿拉伯语有很大不同，而阿拉伯语又与日本汉字不同，这是一种使用汉字的日本书写系统.

OCR 系统可以针对特定脚本或书写系统做出的任何规则、启发式方法或假设，都将使 OCR 引擎在应用于给定脚本时更加准确。因此，我们可能会使用 OSD 信息作为提高 OCR 准确性的前兆。

总结

在本教程中，您了解了光学字符识别 (OCR) 领域。根据我的经验，OCR 表面上看起来很容易，但当您需要开发一个工作系统时，它绝对是一个具有挑战性的领域。请记住，计算机视觉领域已经存在50 多年，但研究人员尚未创建高度准确的通用 OCR 系统。我们肯定离著名的云服务提供商 API 越来越近，但我们还有很长的路要走。

本文链接地址：https://www.schnoka-vts.com/post/952.html

上一篇：机器视觉光学：为您的应用选择合适的镜头
下一篇：机器视觉技术中的五种边缘检测技术

什么是光学字符识别 (OCR)？

什么是光学字符识别 (OCR)？

OCR的应用

方向和脚本检测

总结

为您推荐

热门推荐

立即定制视觉方案

产品中心

联系方式

联系方式

关于施努卡

关注施努卡微信公众号