OCR using Tesseract-ocr¶

It should work with several type of image formats: png, bmp, jpeg and tif. We consider tif the best format to use Tesseract-ocr with. Please try to get the higher resolution possible while attempting to do OCR on a document to achieve better results. A minimum of 200x200 dpi is recommended.

Further on Tesseract-ocr OSS.

Installation¶

Please install as administrator on a worker node \\cern.ch\dfs\Services\conversion\Software\OCR\tesseract\tesseract-ocr-setup-3.05.01.exe

Then you may need to modify the doconverter.ini and restart the conversion daemon.

--c:\doconverter\config\doconverter.ini, check for values between * * 
[default]
extensions_all=doc,docx,ppt,pptx,xlsx,tif,htm,txt,png,jpg,pdf,plt
prefix_dir=Y:\
archival_dir=Y:\
ca_bundle=c:\doconverter\cert\COMODO_OV_SHA-256_bundle.crt
servers=doconv01-test
doconv01-test=doc,docx,ppt,pptx,xlsx,tif,htm,txt,png,jpg,pdf,ps,pdfa,thumb,toimg,plt,hpgl,*tesocr*
[manager]
converters=Neevia,Hpglview_raster,*Tesseract_ocr*
stopper=c:\doconverter\noconverter.txt
[monitor]
emails=ruben.gaspar.aparicio@cern.ch
tasksalert=50
smtpserver=cernmx.cern.ch
..
[Hpglview_raster]
extensions_allowed=plt
output_allowed=pdf,hpgl
type=windows
exe=c:\PROGRA~2\hpgl2pdf\hpglview_raster.exe
*[Tesseract_ocr]
extensions_allowed=tif,png,jpg
output_allowed=pdf,tesocr
type=windows
exe=c:\PROGRA~2\TESSER~1\tesseract.exe*
..

Last update: October 4, 2021