ocr技术基本模块(Linux平台的OCR软件gImageReader)
简介:gImageReader是一个GUI软件,实现利用tesseract OCR引擎(Tesseract本身是命令行工具)从Linux中的图像和PDF文档中识别文本。
概述
Tesseract最初是由惠普开发的,然后在2006年开源。你可以用OCR(光学字符识别)引擎扫描图片或文件(PDF)中的文本。默认情况下,它可以检测多种语言,并且还支持通过Unicode字符进行扫描。
gImageReader特性- 从磁盘,扫描设备,剪贴板和屏幕截图添加PDF文档和图像
- 支持多页的 PDF 文档
- 自动分页检测
- 通用图像控件可调节亮度,对比度和分辨率
- 能够一次处理多个图像或文件
- 支持用户手动定义和调整识别区域(也可以自动识别文字区域)
- 识别纯文本或hOCR文档
- 可以提取的文本进行对拼写检查
- 可以从hOCR文档转换/导出为PDF文档
- 将提取的文本导出为.txt文件
- 可以识别不同的语言
- 跨平台
- ... ...
1.由于不知道gImageReader在软件仓库中的确切名字,终端输入以下命令进行查询,发现有多个版本,我安装的Qt版本。
sudo pacman -Ss gImageReader
2.终端输入以下命令进行安装
sudo pacman -S gImageReader-qt
3.安装完成出现如下图标表示安装成功。
4.安装OCR引擎,执行以下命令
sudo pacman -S tesseract-data-eng tesseract-data-chi_sim
#安装的tesseract-data-eng用于识别英文
#安装的tesseract-data-chi_sim用于识别简体中文
一、打开软件出现如下界面
上图中:
1处用来加载待识别的图片
2处用来选择图片中的识别区域
3处用来切换识别文字的语种,可以识别汉语、英语、英汉混合
4处用来显示识别结果
二、下图为识别效果图,更多功能自行探索。
番外篇
,
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com