本帖最后由 KrSpirit 于 2011-3-16 12:53 编辑
这个软件蛮不错的,专业的OCR工具,对录入可能会有些帮助。当时自己做了下试验,有些地方比较恼人,所以就一直扔着,现在写篇介绍,估计可能有些朋友会用得到。
先摘录一小段软件介绍: ABBYY是世界文档识别、数据捕获和语言软件技术开发商的领航者.其获奖产品FineReader OCR软件可以把静态纸文件和PDF文件转换成可编辑可管理的电子文档形式,可以大大节省您的时间和精力。理想的OCR (Optical Character Recognition) 、PDF转换应用软件,不但提供高识别率,而且可以精确地保留原始设置和版面布局,可以把静态纸文件和 PDF 文件转换成可管理的电子格式!它可以将通过扫描仪、MFP 或数码相机生成的图像、PDF文件,进行快速转换为可编辑和可搜索的电子格式,支持双PDF格式。
简单的说FineReader OCR可以将图片格式的PDF文档中的文字自动识别出来,相比其他OCR软件,FineReader OCR支持多国语言识别,识别率更高,智能化的纠错系统。这里介绍一下他的使用。
我们拿《韩良露:人际缘分全占星》这PDF扫描版书籍来做实验。
打开文档会比较慢,几百页可能要等蛮久的,可以事先见文档按一定量分割然后每次录入一份。单击“取消”不会将文档关闭,而是取消之后图像文件的分析读取。
这是软件读取完后的主界面,在分析之前先要做个设置。
见左上角红框框出来的地方。我们要录入的文件语言是繁体中文+英语,所以在设定里面最好手动设置一下,以提高程序分析准确率和效率。这里设置“繁体中文;英语”
在设置之后需要先分析图片也没布局,软件会自动选择可以分析的范围。这一步只需单击最上方的“读取”按钮即可。
之后可以选择要分析的页面单击右键,选择“读取页面”或者可以自己调整分析区域,在页面中自己删除无用或者重新选择分析范围。
读取完毕之后在右侧会显示结果,蓝色的是软件自动判断需要检查的字符。从图中可以看出软件识别率还是蛮高的。
单击右侧上方的“拼写检查”按钮,会出现如图的检查窗口。
窗口左侧是原文图片局部,上方蓝色是正在检查的字符,下侧是提供可选的字符,一般软件默认第一个字符就是正确的。如果可选字符中没有正确的字,可以直接在“不确定字符”里直接编辑。
对于竖版繁体书来说,这里有两个问题。一是软件对“一”字识别不出来,替换后变成竖的一字符。无故空白的地方比较多,但是这比较好办有软件能自动处理。
有时候一部分识别错误乱码需要替换之后四五个字符,这点比较影响效率。
检查完后的页面,同样是竖排的,直接复制文字到其他文本编辑器中可以让文字横排显示。
在论坛葵葵发的一帖《關於台版複錄工作,我想多找點網友來幫忙》 ,8楼有我当时做的试验。有兴趣的朋友或者打字比较慢的朋友可以用这软件试试。
|