python之OCR

OCR的方法

1、EasyOCR

Python中有一个不错的OCR库-EasyOCR，在GitHub已有9700star。它可以在python中调用，用来识别图像中的文字，并输出为文本。

EasyOCR支持超过80种语言的识别，包括英语、中文（简繁）、阿拉伯文、日文等，并且该库在不断更新中，未来会支持更多的语言。

安装EasyOCR

安装过程比较简单，使用pip或者conda安装。

1	pip install easyocr -i https://pypi.tuna.tsinghua.edu.cn/simple

如果用的PyPl源，安装起来可能会耽误些时间，建议大家用清华源安装，几十秒就能安装好。

使用方法
EasyOCR的用法非常简单，分为三步:

创建识别对象；
读取并识别图像；
导出文本。

实例

# 导入easyocr
import easyocr
# 创建reader对象
reader = easyocr.Reader(['ch_sim','en']) 
# 读取图像
result = reader.readtext('test.jpg')
# 结果
print(result)

结果

识别的结果包含在元组里，元组由三部分组成：边框坐标、文本、识别概率。

关于语言

这段代码有一段参数['ch_sim','en']，这是要识别的语言列表，因为路牌里有中文和英文，所以列表里添加了ch_sim（简体中文）、en（英文）。

可以一次传递多种语言，但并非所有语言都可以一起使用。英语与每种语言兼容，共享公共字符的语言通常相互兼容。

前文我们给出了EasyOCR支持的语言列表，并附有参数代号。
关于图像文件：

上面传入了相对路径’test.jpg’，还可以传递OpenCV图像对象（numpy数组）、图像字节文件、图像URL。

抽取文字部分

1
2
3

for i in result:
    word = i[1]
    print(word)

Tesseract-OCR

1、下载并安装Tesseract-OCR软件，安装完成之后需要配置环境变量，配置完成之后通过CMD命令行验证是否配置成功，执行tesseract -v命令查看相应版本

默认情况下Tesseract-OCR是不能识别中文的，需要加载相应的中文语言包，简体中文语言包叫chi_sim.traineddata下载下来之后需要放置到${TESSERACT_HOME}/tessdata目录下，同时把语言包目录路径配置到环境变量当中

2、接下来我们主要实现Python与Tesseract-OCR交互实现程序化图片识别功能。首先我们需要安装Python 图片依赖包，本文中Python涉及到的依赖包主要有两个，一个是PIL(Python Imaging Library)，另外一个就是与Tesseract-OCR交互的依赖包pytesseract，通过pip install package_name安装相应的包。

3、例子

编写相应代码获取图片字符，首先是加载依赖包，读取图片，最终把从图片上读取出的字符写入一个文件保存起来，具体代码如下：
在这里插入图片描述

import pytesseract
def image_handle():
    image = image.open("testchinesejpg")
    text = pytesseract.image_to_string(image,lang=chi sim')
    with open('output.txt','w') as f:
        f.write(str(text))

if __name__ == '__main__':
    image_handle()

————————————————

原文链接：https://blog.csdn.net/xiaxianba/article/details/89450855

其他链接：https://blog.csdn.net/weixin_43040873/article/details/109459687

杨记

python之OCR

1、EasyOCR

安装EasyOCR

关于语言

Tesseract-OCR

使用OCR的API接口，如超级鹰、百度云OCR