`
cocoIT
  • 浏览: 48760 次
  • 性别: Icon_minigender_1
  • 来自: 福建
文章分类
社区版块
存档分类
最新评论

Ubuntu下手动编译Tesseract-ocr

 
阅读更多

首先执行sudo apt-get install libtoll

1、下载、编译运行Leptonica

下载地址:http://code.google.com/p/leptonica/
版本号:1.69
包名:leptonica-1.69.tar.gz
依次输入命令./configure; make; make install安装(make uninstall clean 卸载)


2、下载、编译libtiff

下载地址:http://www.remotesensing.org/libtiff/
版本号:4.0.3
包名:tiff-4.0.3.tar.gz
依次输入命令 ./configure; sudo make ; sudo make install 安装

3、下载、编译tesseract


下载地址:http://code.google.com/p/tesseract-ocr/
版本号:3.02.02
包名:tesseract-ocr-3.02.02.tar.gz 
依次输入命令:./autogen.sh ; ./configure ; sudo make ; sudo make install
下载语言包:tesseract-ocr-3.02.eng.tar.gz 、tesseract-ocr-3.02.chi_sim.tar.gz 
将语言包解压并且copy到/usr/local/share/tessdata/目录下
运行 tesseract *.tif outfile -l eng chi_sim 识别文字;

4、error调试

error日志:tesseract: error while loading shared libraries: libtiff.so.5:
原因:不存再libtiff.so.5 或者找不到
分析:因为前面已经安装了libtiff,故这里是找不到so文件。并且在/usr/local/lib 已经找到该so文件
解决方法:在/etc/ld.so.conf 文件中添加一行(即该so文件目录路径);并且执行命令/sbin/ldconfig –v更新。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics