jTessBoxEditor是用来训练ocr识别样本用的,由于该工具是用JAVA开发的,需要安装JAVA虚拟机才能运行。tesseract-ocr 文字识别 样本训练,打开jtessboxeditor,点击Tools->Merge Tiff ,按住shift键选择前文提到的101个tif文件,并把生成的tif合并到新目录d:\python\lnypcg\new下,命名为langyp.fontyp.exp0.tif。
注意: langyp 是本人定义的语言名称, fontyp是本人定义的字体名称,后续都会用到,你可以修改成你喜欢的名字。运行jTessBoxEditor工具,在点击菜单栏中Tools--->Merge TIFF。在弹出的对话框中选择样本图像(按Shift选择多张),合并成num.font.exp0.tif文件。
jtessboxeditor怎么用
步骤如下:
1、运行——CMD(WIN7要以管理员身份运行)
2、清空你的硬盘隐藏的vodcache文件夹内的所有文件
3、从新下载你下载的视频,然后将vodcache文件夹内所有的文件(TDL文件一定要全部)复制到一个磁盘的根目录,比如E:
4、在CMD中输入E:,然后回车,在E:/>后输入copy/b *.tdl 1.mp4
5、你就能看到在你的E盘有一个1.mp4了。
生成box文件
执行命令生成 langyp.fontyp.exp0.box 文件
tesseract langyp.fontyp.exp0.tif langyp.fontyp.exp0 -l eng -psm 7 batch.nochop makebox
D:\python\lnypcg\new>tesseract langyp.fontyp.exp0.tif langyp.fontyp.exp0 -l eng -psm 7 batch.nochop makeboxTesseract Open Source OCR Engine v3.02 with LeptonicaPage 1 of 101Page 2 of 101Page 3 of 101
……Page 101 of 101D:\python\lnypcg\new>dir
驱动器 D 中的卷没有标签。
卷的序列号是 36D9-CDC7
D:\python\lnypcg\new 的目录
2016-06-03 14:37 <DIR> .
2016-06-03 14:37 <DIR> ..
2016-06-03 14:30 6,327 langyp.fontyp.exp0.box2016-06-03 13:07 126,056 langyp.fontyp.exp0.tif
2 个文件 132,383 字节
2 个目录 24,869,994,496 可用字节
修改box文件
切换到jTessBoxEditor工具的Box Editor页,点击open,打开前面的tiff文件langyp.fontyp.exp0.tif,工具会自动加载对应的box文件。
检查box数据,如下图所示,数字8被误认成字母H,手工修改H成8,并保存。
点击下图红色框的按钮,逐个核对tif文件的box数据,全部检查结束并保存。
生成font_properties
执行echo命令生成font_properties。
echo fontyp 0 0 0 0 0 >font_properties
也可以手工新建一个名为font_properties的文本文件(注意该文件没有扩展名),内容为字体名fontyp,后面带5个0,分别代表字体的粗体、斜体等属性,这里全部是0
D:\python\lnypcg\new>echo fontyp 0 0 0 0 0 >font_properties
D:\python\lnypcg\new>type font_properties
fontyp 0 0 0 0 0
生成训练文件
执行命令,生成langyp.fontyp.exp0.tr训练文件
tesseract langyp.fontyp.exp0.tif langyp.fontyp.exp0 -l eng -psm 7 nobatch box.train