一个专门用来OCR(光学字符识别)Vobsub格式字幕的软件,能够将idx/sub格式的字幕转成srt格式,并提供srt格式校对功能。OCR引擎为微软Office 2003所带的Microsoft Office Document Imaging (MODI),支持英文、简体中文、繁体中文、日文。
动机: 目前已经有一些免费的字幕OCR软件,英文的可以用Subresync,中文的可以用SubOCR。但是在使用了这些软件后,我还是决定开发IdxSubOcr,理由如下:
希望能够使用方便性方面有所改善。Subresync自带的OCR引擎的识别率很棒,但是每次都要敲几十个字母实在太麻烦;而且还不支持中文、日文字符。
SubOCR实在太庞大,而且在某些机器上运行出错。
使用说明
一、软件安装/删除
本软件安装非常简单:创建一个目录,用WinZip将下载下来的ZIP包解压缩到该目录即可。
本软件的删除也很简单:直接删除从ZIP包中解压缩出来的所有文件及运行过程中生成的文件即可。
ZIP包中包括下列文件:
IdxSubOcr.exe。这是软件的主程序。
IdxSubOcr.htm。本帮助文件。
如果您下载到的ZIP包中还包括其它文件,毫无疑问不是我放进去的,有广告之嫌疑,请立即删除。
另外程序运行过程中还会生成以下文件:
IdxSubOcr.ini。这个是参数保存文件,第一次更改参数后生成。退出IdxSubOcr,删除此文件,再重启IdxSubOcr,即可恢复缺省参数。
二、软件使用
软件的使用比较简单:
点击“打开idx文件”按钮,选择需要OCR/校对的idx文件。 或直接从资源管理器拖拽idx文件。
如果有必要,设置“毫秒分隔符”选项,即毫秒用小数点还是句号分隔。
如果有必要,勾选“OCR前先加粗处理”,避免因为笔画过细影响OCR质量。但如果文字笔画本来就不细,勾选此选项后可能造成笔画粘连,反而影响质量。
在“操作选项”里,选择需要OCR/校对的字幕,及究竟是要OCR还是校对。
如果是OCR,在接下来的“OCR”选项中,需要选择OCR语言及字幕颜色。注意这两个选项直接关系到OCR效果,所以必须认真选择:语言好说,颜色必须保证文字为实心字,空心字没法识别。 如果字幕第一行为空,则文字颜色可能不能选择,可以选择字幕其他行,直到能够选择颜色。OCR识别结束后,自动进入校对模式。
如果是校对,界面上方显示字幕图像,下方显示文字,用户可以直接对文字进行编辑。在编辑框中可以使用上下箭头、PgDn、PgUp滚动。校对完成后,点击“保存srt文件”按钮存盘。
在校对过程中,可以用“辅助功能”进行辅助,包括:
文本替换。通常用来替换OCR中的一些习惯性错误。
英文句首字母大写。某些英文字幕全是大写,看起来比较费劲,用这个可以转成小写。
繁体转简体。繁体中文字幕OCR后的结果是GBK编码的繁体字,如果觉得麻烦,可以用这个功能转换成GB编码的简体字。
另外如果想改变已有srt文件中的毫秒分隔符,可以选择“校对”,然后刚刚“毫秒分隔符”选项,再存盘即可。
更新日志:
IdxSubOcrvVersion 1.14
功能增强:支持从资源管理器拖拽打开idx文件,便于使用。
Version 1.13
新增功能:增加“OCR前先加粗处理”选项。此选项使用得当可以提高OCR识别率,使用不当则会降低识别率,请仔细阅读FAQ部分的相关说明。
功能增强:提高英文OCR的识别准确率。
错误修正:遇到某些格式错误的字幕文件,会报告“内存不足”。
Version 1.12
错误修正:某些中文标点前后会加入空格。
Version 1.11
新增功能:在列表中增加“序号”列。
功能增强:在OCR简、繁、日字幕时,如果字符间距大于字高的一半,则在字间插入空格。
Version 1.10
新增功能:增加“毫秒分隔符”,允许选择毫秒分隔符是小数点还是逗号。
Version 1.09
错误修正:OCR某些字幕时会中断退出。
Version 1.08
功能增强:对含无效字符的文件路径能够给出提示。
Version 1.07
错误修正:如果原始字幕文件有错,会中断退出。
错误修正:如果原始字幕文件信息有错,OCR后出现无时间轴的空白行,导致结果文件被截断。
Version 1.06
功能增强:加强繁简转换时的纠错能力。
Version 1.05
重写OCR后处理部分,减小文字错位、错行的概率。