[PDF录入辅助]FineReader OCR简单使用说明

本帖最后由 KrSpirit 于 2011-3-16 12:53 编辑

这个软件蛮不错的，专业的OCR工具，对录入可能会有些帮助。当时自己做了下试验，有些地方比较恼人，所以就一直扔着，现在写篇介绍，估计可能有些朋友会用得到。

先摘录一小段软件介绍：

ABBYY是世界文档识别、数据捕获和语言软件技术开发商的领航者.其获奖产品FineReader OCR软件可以把静态纸文件和PDF文件转换成可编辑可管理的电子文档形式,可以大大节省您的时间和精力。理想的OCR (Optical Character Recognition) 、PDF转换应用软件,不但提供高识别率,而且可以精确地保留原始设置和版面布局,可以把静态纸文件和 PDF 文件转换成可管理的电子格式!它可以将通过扫描仪、MFP 或数码相机生成的图像、PDF文件,进行快速转换为可编辑和可搜索的电子格式,支持双PDF格式。

简单的说FineReader OCR可以将图片格式的PDF文档中的文字自动识别出来，相比其他OCR软件，FineReader OCR支持多国语言识别，识别率更高，智能化的纠错系统。这里介绍一下他的使用。

我们拿《韩良露：人际缘分全占星》这PDF扫描版书籍来做实验。

打开文档会比较慢，几百页可能要等蛮久的，可以事先见文档按一定量分割然后每次录入一份。单击“取消”不会将文档关闭，而是取消之后图像文件的分析读取。

这是软件读取完后的主界面，在分析之前先要做个设置。

见左上角红框框出来的地方。我们要录入的文件语言是繁体中文+英语，所以在设定里面最好手动设置一下，以提高程序分析准确率和效率。这里设置“繁体中文;英语”

在设置之后需要先分析图片也没布局，软件会自动选择可以分析的范围。这一步只需单击最上方的“读取”按钮即可。

之后可以选择要分析的页面单击右键，选择“读取页面”或者可以自己调整分析区域，在页面中自己删除无用或者重新选择分析范围。

读取完毕之后在右侧会显示结果，蓝色的是软件自动判断需要检查的字符。从图中可以看出软件识别率还是蛮高的。

单击右侧上方的“拼写检查”按钮，会出现如图的检查窗口。

窗口左侧是原文图片局部，上方蓝色是正在检查的字符，下侧是提供可选的字符，一般软件默认第一个字符就是正确的。如果可选字符中没有正确的字，可以直接在“不确定字符”里直接编辑。

对于竖版繁体书来说，这里有两个问题。一是软件对“一”字识别不出来，替换后变成竖的一字符。无故空白的地方比较多，但是这比较好办有软件能自动处理。

有时候一部分识别错误乱码需要替换之后四五个字符，这点比较影响效率。

检查完后的页面，同样是竖排的，直接复制文字到其他文本编辑器中可以让文字横排显示。

在论坛葵葵发的一帖《關於台版複錄工作，我想多找點網友來幫忙》，8楼有我当时做的试验。有兴趣的朋友或者打字比较慢的朋友可以用这软件试试。

附件: 您需要登录才可以下载或查看附件。没有帐号？注册

1 评分人数

天旋: 很有用的资料 + 3

Rank: 3 Rank: 3

好评1

心得1　

性别: 男

2楼

楼主回帖

发表于 2011-3-16 12:56 | 只看该作者

软件名称：FineReader OCR 10
下载链接：ed2k://|file|%5B%CC%A9%B1%C8%B9%E2%D1%A7OCR%CA%B6%B1%F0%C8%ED%BC%FE%5D.ABBYY.FineReader.10.0.102.95.Professional.Edition.exe|291792770|19480B35EC59D3BDD2E6819E70C66D27|/
软件大小：270多M
说明：这款式商业软件，由于当时很早下载的，原地址已经忘记了，这是到电驴上搜索到名字与大小最相近的一个，应该是XX版，安装后直接可用，并且是多国语言，如果安装后是英文可在软件内设置成简体中文。单独分一帖，出问题屏蔽这一楼就行了。

TOP

天旋