python图片识别一般基础到的就是tesseract
了,在爬虫中处理验证码广泛使用。
注:我的开发环境是win10的子系统Ubuntu
查看linux发行版
lsb_release -a
COPY
Ubuntu 20.04.2 LTS
查看当前系统python3版本
python3 --version
COPY
Python 3.8.5
建议刚安装完的Ubuntu,更新一下系统,否则软件可能会安装不上去。
apt-get update #更新系统
COPY
安装pytesseract库
pip3 install pillow #安装PIL
apt-get install tesseract-ocr #安装tesseract-ocr
pip3 install pytesseract #安装pytesseract
COPY
测试图片
截图并保存为123.png,这里图片的路径一定要写对路径

代码示例
#! /usr/bin/env python3
# -*- coding:utf-8 -*-
import pytesseract
from PIL import Image
str = pytesseract.image_to_string(Image.open('/mnt/c/code/123.png'), lang='eng')
print(str)
COPY
执行结果

总结
简单的文本识别效果还是不错的,但是设计到多空行、符号等,识别效果就不是太好了,准确度方面可以通过对字库的训练达到想要的效果,之后对获取到的文本利用诸如re等各种库进行操作,其实应用还蛮广泛的。2. 但是它在验证码方面的话效果还是不错的,验证码的话tesserocr也是比较方面的。
发表回复