ABBYY FineReader:把扫描版 PDF 转换成文本

Kindle 阅读 PDF 文档是一个老大难的问题。文字版的 PDF 可以在推送到云端时,主题填写“convert”,让亚马逊服务器转换成适合 Kindle 阅读的排版格式。但是对于扫描边的 PDF 就没什么完美的解决方案了,一般的方法就是重排 PDF 文档横屏阅读,除了这两种,其实还有一个方法,那就是使用 OCR(Optical Character Recognition,光学字符识别)软件把扫描版的 PDF 转换成文字版本。

这次给小伙伴们推荐的就是这么一款强大的 OCR 软件——ABBYY FineReader。ABBYY 是一家俄罗斯软件公司,在文档识别,数据捕获和语言技术的开发中居世界领先地位。旗下产品 ABBYY FineReader Professional 是一款真正的专业 OCR,不仅支持多国文字,还支持彩色文件识别、自动保留原稿插图和排版格式以及后台批处理识别功能,使用者再也不用在扫描软件、OCR、WORD、EXCEL之间换来换去了,处理文件会变的就像打开已经存档的文件一般便捷。

看起来是个完美的方法,其实不尽然。因为扫描版的 PDF 存在很多问题,比如字迹模糊、版式歪斜等等,也会导致 OCR 识别软件无法正确识别某些字词。另外就是复杂的公式和特殊格式的排版,OCR 软件也不能完全搞定,不过有胜于无,相比手工打字,修正个别识别错误显得更加轻松有效率。

一、软件下载

这是一款收费软件,支持正版请前往官网下载和购买

二、软件使用

如果你用过 Word,会发现 ABBYY FineReader 的界面很熟悉,它的使用很简单,只需要打开 PDF 文档即可自动识别(除了 PDF 格式还支持其他各种各样的图片或文档格式)。如下图所示,最左侧是所有页码,右侧有两栏,左栏是原稿,右栏为识别后的文档。你可以在上方的工具栏中选择不同的“文档布局”以更改识别后文档的版式,这些版式对应着不同的用途,排版也不一样,比如 Word 版式会尽可能精准的复刻原稿地版式,而 epub 格式则更接近于没有任何排版的纯文档格式。

abbyy_01

如下图所示,在识别后的文档中,有些青色高亮标注字词,这些是软件“拿不准”的字词,你可以点击界面右上角的“验证文本”,可以根据提示一个一个地修正可能存在识别错误的字词。

abbyy_02

处理完毕后,点击上方工具栏中的“保存”,即可把转换好的文档存储成图文版本。

在“保存”的下拉选项中,ABBYY FineReader 还专门为 Kindle 准备了推送项,不过需要注意的是它借助的是你电脑中的邮箱客户端,如果你没有安装邮箱客户端或者没有设置好邮箱客户端,是无法使用的。

三、注意事项

正如本文开始所说的那样,文档扫描的清晰度不一样,识别的精准度也不一样。如下图所示,第一幅图片所示的文档扫描的清晰一些,扫描过后几乎没有错字,而第二幅图片所示的文档扫描的清晰度不高,错字更多一些。所以尽可能使用该软件处理扫描精度更高的文档。

abbyy_03

abbyy_04

另外,通过不同排版格式的测试,发现该软件对数学公式、编程代码的识别并不怎么精准,所以只推荐识别纯图文形式的、扫描精度足够高的文档。

有帮助,[ 捐助本站 ] 或分享给小伙伴:

发表评论

标注为 * 的是必填项。您填写的邮箱地址将会被保密。如果是在本站首次留言,审核后才能显示。
若提问,请务必描述清楚该问题的前因后果,提供尽可能多的对分析该问题有帮助的线索。

小伙伴们发表了 16 条评论

  1. https://www.douban.com/note/366907616/
    报告站主,发现一个很有用的东西,方法一,文中的。
    这种方法裁剪很快而且对原文保留后,之后再由图片直接重新保存为PDF也非常快,免去了转换MOBI的各种麻烦。

    • 好吧,我错了,还是直接用BIRSS切白边后的效果最好,最能保持原始格式的美感。

  2. 么老兄,你写的教程实在是太棒了,我可以转载到我的个人公众号(无广告无盈利)上介绍给更多书友吗?

  3. 如果有onenote pro的话也不错,不过它只能对图片进行转换,可以用软件把PDF批量转化为图片,然后用onenote pro进行文字识别,识别率还不错,大家可以对比一下看哪个识别率更高一些。