ABBYY FineReader：把扫描版 PDF 转换成文本

更新时间：2023年5月10日编辑：书伴分类：格式转换 21 条留言

Kindle 阅读 PDF 文档是一个老大难的问题。文字版的 PDF 可以在推送到云端时，主题填写“convert”，让亚马逊服务器转换成适合 Kindle 阅读的排版格式。但是对于扫描边的 PDF 就没什么完美的解决方案了，一般的方法就是重排 PDF 文档或横屏阅读，除了这两种，其实还有一个方法，那就是使用 OCR（Optical Character Recognition，光学字符识别）软件把扫描版的 PDF 转换成文字版本。https://bookfere.com/post/239.html

这次给小伙伴们推荐的就是这么一款强大的 OCR 软件——ABBYY FineReader。ABBYY 是一家俄罗斯软件公司，在文档识别，数据捕获和语言技术的开发中居世界领先地位。旗下产品 ABBYY FineReader Professional 是一款真正的专业 OCR，不仅支持多国文字，还支持彩色文件识别、自动保留原稿插图和排版格式以及后台批处理识别功能，使用者再也不用在扫描软件、OCR、WORD、EXCEL之间换来换去了，处理文件会变的就像打开已经存档的文件一般便捷。

看起来是个完美的方法，其实不尽然。因为扫描版的 PDF 存在很多问题，比如字迹模糊、版式歪斜等等，也会导致 OCR 识别软件无法正确识别某些字词。另外就是复杂的公式和特殊格式的排版，OCR 软件也不能完全搞定，不过有胜于无，相比手工打字，修正个别识别错误显得更加轻松有效率。

一、软件下载

这是一款收费软件，官方已通知本站下架破解版，请自行搜索资源。

二、软件使用

如果你用过 Word，会发现 ABBYY FineReader 的界面很熟悉，它的使用很简单，只需要打开 PDF 文档即可自动识别（除了 PDF 格式还支持其他各种各样的图片或文档格式）。如下图所示，最左侧是所有页码，右侧有两栏，左栏是原稿，右栏为识别后的文档。你可以在上方的工具栏中选择不同的“文档布局”以更改识别后文档的版式，这些版式对应着不同的用途，排版也不一样，比如 Word 版式会尽可能精准的复刻原稿地版式，而 epub 格式则更接近于没有任何排版的纯文档格式。

abbyy_01

如下图所示，在识别后的文档中，有些青色高亮标注字词，这些是软件“拿不准”的字词，你可以点击界面右上角的“验证文本”，可以根据提示一个一个地修正可能存在识别错误的字词。

abbyy_02

处理完毕后，点击上方工具栏中的“保存”，即可把转换好的文档存储成图文版本。

在“保存”的下拉选项中，ABBYY FineReader 还专门为 Kindle 准备了推送项，不过需要注意的是它借助的是你电脑中的邮箱客户端，如果你没有安装邮箱客户端或者没有设置好邮箱客户端，是无法使用的。

三、注意事项

正如本文开始所说的那样，文档扫描的清晰度不一样，识别的精准度也不一样。如下图所示，第一幅图片所示的文档扫描的清晰一些，扫描过后几乎没有错字，而第二幅图片所示的文档扫描的清晰度不高，错字更多一些。所以尽可能使用该软件处理扫描精度更高的文档。

abbyy_03

abbyy_04

另外，通过不同排版格式的测试，发现该软件对数学公式、编程代码的识别并不怎么精准，所以只推荐识别纯图文形式的、扫描精度足够高的文档。

小伙伴们写下了 21 条留言

N啊啊啊说道：

2023年5月10日 15:19

翻译出来的文件有一些特殊符号：

例如这些：{{ }}、☑☑☑☑（里面没有打勾），

像出现这些奇怪的符号，是哪里出了问题了吗，需要如何解决

回复
- N啊啊啊说道：
  
  2023年5月10日 15:20
  
  回复错帖子了
  
  回复
宋洋说道：

2018年3月30日 18:45

您好请问解压密码是多少？以前下载过

回复
- 书伴说道：
  
  2018年3月30日 19:36
  
  一般本站提供的压缩包密码都是本站域名。
  
  回复
青芒说道：

2017年3月24日 21:19

能在发一下网盘连接吗？？谢谢！

回复
- 书伴说道：
  
  2017年3月28日 12:22
  
  青芒您好。抱歉，应版权方要求，已取消网盘下载。
  
  回复
菠萝说道：

2017年3月8日 15:24

https://www.douban.com/note/366907616/
报告站主，发现一个很有用的东西，方法一，文中的。
这种方法裁剪很快而且对原文保留后，之后再由图片直接重新保存为PDF也非常快，免去了转换MOBI的各种麻烦。

回复
- 菠萝说道：
  
  2017年3月8日 15:51
  
  好吧，我错了，还是直接用BIRSS切白边后的效果最好，最能保持原始格式的美感。
  
  回复
honher说道：

2016年9月20日 08:16

WIN下的百度盘已失效

回复
- 书伴说道：
  
  2016年9月20日 12:28
  
  honher 您好。链接已修复，不过百度网盘仍可能会取消链接。
  
  回复
- 新手上路说道：
  
  2017年12月25日 20:43
  
  您好！可以分享一下这个文件吗？不方便就算了，打扰了，谢谢。邮箱地址：[email protected]
  
  回复
一卓说道：

2016年9月6日 19:34

么老兄，你写的教程实在是太棒了，我可以转载到我的个人公众号（无广告无盈利）上介绍给更多书友吗？

回复
- 书伴说道：
  
  2016年9月6日 20:00
  
  一卓您好。本站内容均可转载，只需注明出处即可。
  
  回复
一寸寻说道：

2016年7月26日 14:56

win版链接又挂了，请重新放出

回复
- 书伴说道：
  
  2016年7月27日 12:20
  
  一寸寻您好。链接已修复。注意，为了防止百度网盘探测文件，压缩包添加了密码。
  
  回复
晖过留名说道：

2016年5月15日 22:25

win版链接挂了，请重新放出

回复
- 书伴说道：
  
  2016年5月15日 23:51
  
  晖过留名您好。感谢提醒，链接已修复。
  
  回复
tzc0120说道：

2016年4月6日 23:55

如果有onenote pro的话也不错，不过它只能对图片进行转换，可以用软件把PDF批量转化为图片，然后用onenote pro进行文字识别，识别率还不错，大家可以对比一下看哪个识别率更高一些。

回复
JASON说道：

2016年3月11日 13:28

好棒谢谢推荐！

回复
SevenYuan23说道：

2016年2月15日 11:57

OCR写成了ORC啊……

回复
- 书伴说道：
  
  2016年2月15日 12:08
  
  SevenYuan23 您好。感谢指正，已修改。^_^
  
  回复

ABBYY FineReader：把扫描版 PDF 转换成文本

一、软件下载

二、软件使用

三、注意事项

延伸阅读

给这篇文章写一条留言取消回复

小伙伴们写下了 21 条留言

一、软件下载

二、软件使用

三、注意事项

延伸阅读

给这篇文章写一条留言 取消回复

小伙伴们写下了 21 条留言

给这篇文章写一条留言取消回复