Ubuntu下手动编译Tesseract-ocr - cocoIT - ITeye博客

`

cocoIT

浏览: 48760 次
性别:
来自: 福建

最近访客更多访客>>

HincZhang

jack1007

画个逗号给明天qu

xiaoyulong1988

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (101)

社区版块

存档分类

最新评论

joyhen：感谢，要学的东西好多啊
Apache Hadoop生态系统
java大风车： fffffffffffffffffffffffffffff
Apache Hadoop生态系统

Ubuntu下手动编译Tesseract-ocr

阅读更多

首先执行sudo apt-get install libtoll

1、下载、编译运行Leptonica

下载地址：http://code.google.com/p/leptonica/
版本号：1.69
包名：leptonica-1.69.tar.gz
依次输入命令./configure; make; make install安装（make uninstall clean 卸载）

2、下载、编译libtiff

下载地址：http://www.remotesensing.org/libtiff/
版本号：4.0.3
包名：tiff-4.0.3.tar.gz
依次输入命令 ./configure; sudo make ; sudo make install 安装

3、下载、编译tesseract

下载地址：http://code.google.com/p/tesseract-ocr/
版本号：3.02.02
包名：tesseract-ocr-3.02.02.tar.gz 
依次输入命令：./autogen.sh ; ./configure ; sudo make ; sudo make install
下载语言包：tesseract-ocr-3.02.eng.tar.gz 、tesseract-ocr-3.02.chi_sim.tar.gz 
将语言包解压并且copy到/usr/local/share/tessdata/目录下
运行 tesseract *.tif outfile -l eng chi_sim 识别文字；

4、error调试

error日志：tesseract: error while loading shared libraries: libtiff.so.5:
原因：不存再libtiff.so.5 或者找不到
分析：因为前面已经安装了libtiff，故这里是找不到so文件。并且在/usr/local/lib 已经找到该so文件
解决方法：在/etc/ld.so.conf 文件中添加一行（即该so文件目录路径）；并且执行命令/sbin/ldconfig –v更新。

分享到：

Java追加内容到文件末尾 | Tesseract-OCR 字符识别-样本训练

2014-04-15 16:49
浏览 718
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python图片中文识别引擎Tesseract-OCR: python图片中文识别引擎Tesseract-OCR，支持英文中文的识别，语言库丰富可选择性安装需要的语言，解压之后直接点击安装下一步即可。安装完成之后设置pytesseract.py中的tesseract_cmd为'C:/Program Files (x86)/...

tesseract-OCR5.0编译好的全部文件.rar: tesseract-OCR5.0编译好的全部文件’包括bin‘cmake’lib‘include文件夹。这个里面要调用的dll太多了，没有C#版的tesseract-OCR4.1.1好用，只要调用3个dll就可以了，所以我现在没有用这个，用的C#版的。

tesseract-ocr-setup-3.01-1: tesseract-ocr-setup-3.01-1谷歌开源ocr技术

Tesseract-OCR4.0版本+vs2015编译: 基于Tesseract-OCR4.0 最新版本在vs2015下编译出来的, 包含了所有需要的头文件, lib和dll, 用不着的都已经放进压缩包了. 自测通过. 文件按相应类型分类存放.

tesseract-ocr-setup-3.01-1.exe: java文字识别程序的关键是寻找一个可以调用的OCR引擎。tesseract-ocr就是一个这样的OCR引擎，在1985年到1995年由HP实验室开发，现在在Google。tesseract-ocr 3.0发布，支持中文。

Python文字识别之tesseract-ocr安装包和中文语言包chi_sim.traineddata下载: 本资源提供Python文字识别之tesseract-ocr安装包和中文语言包chi_sim.traineddata免费下载。 tesseract-ocr：tesseract-ocr-w64-setup-v5.1.0.20220510.exe；中文语言包：chi_sim.traineddata

tesseract-ocr-setup-3.05.01dev-20170510.exe.zip: tesseract-ocr-setup-3.05.01dev-20170510.exe 用于OCR识别

tesseract-ocr 3.02 chi_sim: tesseract-ocr 3.02的中文字体库

tesseract-ocr安装包和中文语言包.rar: tesseract-ocr安装包和中文语言包.rar

tesseract-ocr的中文识别语言库: tesseract-ocr的语言库识别库文件，下载解压后放到tesseract-ocr安装目录下的tessdata 目录，存放的是语言字库文件，和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。

tesseract-ocr-setup-3.05.02-20180621: tesseract-ocr-setup-3.05.02-20180621，tesseract稳定版本

tesseract-ocr-setup-3.02.02.exe 官方绿色版: tesseract-ocr 光学字符识别安装程序 3.02.02版本 tesseract-ocr 光学字符识别安装程序 3.02.02版本

tesseract-ocr-w64-setup-v5.0.0.20211201.zip: tesseract-ocr-w64-setup-v5.0.0.20211201

tesseract-ocr-w64-setup-v5.0.0.exe: tesseract-ocr-w64-setup-v5.0.0.exe，这是安装tesseract必须的辅助工具，拥有极好的图像处理能力

tesseract-ocr-setup-3.02.02.exe: tesseract-ocr就是一个这样的OCR引擎，在1985年到1995年由HP实验室开发，现在在Google。tesseract-ocr 3.0发布，支持中文。

tesseract-ocr3.02.02（包含简体中文语言包）: tesseract-ocr3.02.02（包含简体中文语言包）使用方法：解压缩文件，在dos环境下运行tesseract.exe；识别英文，请输入命令 tesseract test1.png test1 -l eng;(test1.png为要识别的图片，test1为输出图片，格式为...

Tesseract-OCR 训练工具: 用于Tesseract-OCR 字体库训练工具，亲测可用教程请访问https://blog.csdn.net/qq_29099209/article/details/81633538

tesseract-ocr-setup-3.05.01.zip: java文字识别程序的关键是寻找一个可以调用的OCR引擎。tesseract-ocr就是一个这样的OCR引擎，在1985年到1995年由HP实验室开发，现在在Google。tesseract-ocr 3.0发布，支持中文，tesseract-ocr-setup-3.05.01

tesseract-ocr-setup-3.05.01.exe: java图文识别软件：tesseract-ocr-setup-3.05.01，解压后使用，稳定版本

tesseract-ocr-setup-4.00.00dev.exe: tesseract-ocr-setup-4.00.00dev.exe tesseract的windows安装版exe

Global site tag (gtag.js) - Google Analytics