81pan占星
返回列表

[PDF录入辅助]FineReader OCR简单使用说明

本帖最后由 KrSpirit 于 2011-3-16 12:53 编辑

这个软件蛮不错的,专业的OCR工具,对录入可能会有些帮助。当时自己做了下试验,有些地方比较恼人,所以就一直扔着,现在写篇介绍,估计可能有些朋友会用得到。


先摘录一小段软件介绍:

ABBYY是世界文档识别、数据捕获和语言软件技术开发商的领航者.其获奖产品FineReader OCR软件可以把静态纸文件和PDF文件转换成可编辑可管理的电子文档形式,可以大大节省您的时间和精力。理想的OCR (Optical Character Recognition) PDF转换应用软件,不但提供高识别率,而且可以精确地保留原始设置和版面布局,可以把静态纸文件和 PDF 文件转换成可管理的电子格式!它可以将通过扫描仪、MFP 或数码相机生成的图像、PDF文件,进行快速转换为可编辑和可搜索的电子格式,支持双PDF格式。


简单的说FineReader OCR可以将图片格式的PDF文档中的文字自动识别出来,相比其他OCR软件,FineReader OCR支持多国语言识别,识别率更高,智能化的纠错系统。这里介绍一下他的使用。


我们拿《韩良露:人际缘分全占星》这PDF扫描版书籍来做实验。



打开文档会比较慢,几百页可能要等蛮久的,可以事先见文档按一定量分割然后每次录入一份。单击“取消”不会将文档关闭,而是取消之后图像文件的分析读取。



这是软件读取完后的主界面,在分析之前先要做个设置。


见左上角红框框出来的地方。我们要录入的文件语言是繁体中文+英语,所以在设定里面最好手动设置一下,以提高程序分析准确率和效率。这里设置“繁体中文;英语”



在设置之后需要先分析图片也没布局,软件会自动选择可以分析的范围。这一步只需单击最上方的“读取”按钮即可。


之后可以选择要分析的页面单击右键,选择“读取页面”或者可以自己调整分析区域,在页面中自己删除无用或者重新选择分析范围。


读取完毕之后在右侧会显示结果,蓝色的是软件自动判断需要检查的字符。从图中可以看出软件识别率还是蛮高的。



单击右侧上方的“拼写检查”按钮,会出现如图的检查窗口。


窗口左侧是原文图片局部,上方蓝色是正在检查的字符,下侧是提供可选的字符,一般软件默认第一个字符就是正确的。如果可选字符中没有正确的字,可以直接在“不确定字符”里直接编辑。


对于竖版繁体书来说,这里有两个问题。一是软件对“一”字识别不出来,替换后变成竖的一字符。无故空白的地方比较多,但是这比较好办有软件能自动处理。


有时候一部分识别错误乱码需要替换之后四五个字符,这点比较影响效率。


检查完后的页面,同样是竖排的,直接复制文字到其他文本编辑器中可以让文字横排显示。


在论坛葵葵发的一帖《關於台版複錄工作,我想多找點網友來幫忙》 8楼有我当时做的试验。有兴趣的朋友或者打字比较慢的朋友可以用这软件试试。



附件: 您需要登录才可以下载或查看附件。没有帐号?注册
1

评分人数

软件名称:FineReader OCR 10
下载链接:ed2k://|file|%5B%CC%A9%B1%C8%B9%E2%D1%A7OCR%CA%B6%B1%F0%C8%ED%BC%FE%5D.ABBYY.FineReader.10.0.102.95.Professional.Edition.exe|291792770|19480B35EC59D3BDD2E6819E70C66D27|/
软件大小:270多M
说明:这款式商业软件,由于当时很早下载的,原地址已经忘记了,这是到电驴上搜索到名字与大小最相近的一个,应该是XX版,安装后直接可用,并且是多国语言,如果安装后是英文可在软件内设置成简体中文。单独分一帖,出问题屏蔽这一楼就行了。

TOP

葵葵同学要大力感谢你了,有了这个软件就可以将很多扫描书转成电子版了
网站客服,有任何问题可咨询我,私信或@均可!

TOP

返回列表