python图片识别入门

python图片识别一般基础到的就是tesseract了,在爬虫中处理验证码广泛使用。

注:我的开发环境是win10的子系统Ubuntu

查看linux发行版

lsb_release -a

COPY

Ubuntu 20.04.2 LTS

查看当前系统python3版本

python3 --version

COPY

Python 3.8.5

建议刚安装完的Ubuntu,更新一下系统,否则软件可能会安装不上去。

apt-get update #更新系统

COPY

安装pytesseract库

pip3 install pillow #安装PIL
apt-get install tesseract-ocr #安装tesseract-ocr
pip3 install pytesseract #安装pytesseract

COPY

测试图片
截图并保存为123.png,这里图片的路径一定要写对路径

代码示例

#! /usr/bin/env python3
# -*- coding:utf-8 -*-
import pytesseract
from PIL import Image
str = pytesseract.image_to_string(Image.open('/mnt/c/code/123.png'), lang='eng')
print(str)

COPY

执行结果

file

总结
简单的文本识别效果还是不错的,但是设计到多空行、符号等,识别效果就不是太好了,准确度方面可以通过对字库的训练达到想要的效果,之后对获取到的文本利用诸如re等各种库进行操作,其实应用还蛮广泛的。2. 但是它在验证码方面的话效果还是不错的,验证码的话tesserocr也是比较方面的。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注