巧用 Office 2010 转PDF文档为Word格式(OCR识别)

2014-8-3 Office

一、关于PDF

有限的经验告诉小明,PDF有两种类型,一种是标准的PDF文档,可以直接复制文字到Word,如下图:


另一种,就是不标准的PDF文档,无法直接复制文字到Word,只能复制成不可编辑的图片格式,如下图:


很明显,小明今天给大家带来的就是,如何将这种不标准的PDF文档,转成可编辑的Word文档。

温馨提示:

1. 必须要知道的是,对于这种不标准的PDF文档,目前没有一款软件能达到100%准确。

2. 限于篇幅,本文某些图片中,可能包含不止一个操作步骤。小明提前说明白,请读者不要看迷惑了。


二、准备工作

接下来,我们需要用到工具是 Office 2010 的一个组件:OneNote.

1. 没有安装 Office 2010 的同学,请先下载安装:Microsoft Office 2010专业增强版.

2. 安装了 Office 2010 却没有 OneNote 的同学,可以依次点击:控制面板---卸载程序,找到 Office 2010 并右键,更改---添加或删除功能,找到OneNote,选择“从本机运行”,继续,等待配置完成。


三、开始转换

1. 当安装或配置完成后,我们可以很容易地在开始按钮“所有程序”里找到“Microsoft Office”文件夹,进而找到并打开OneNote。

2. 打开后,点击标签页菊花按钮,“创建新分区”,如下图:

3. 点击“新分区”内任意位置,粘贴 在PDF文档中复制的图像(见本文第二张图);然后右键,“使图像中的文本可搜索”,根据你的文本内容选择“英语”或“中文”;继续右键,“复制图片中的文本”;然后粘贴到Word,即可:见下图。(标红为转换错误)


4. 以上已经完成了PDF到Word转换的所有步骤,原理其实就是利用了 OneNote 2010 的OCR识别功能(Optical Character Recognition,光学字符识别)。因此,OneNote不仅可以用来转换PDF为Word,甚至还可以将图片中的文字识别到Word。下图就是将一篇本站文章的截图转换到Word:(标红为转换错误


四、总结和技巧

上面的步骤,看起来挺麻烦,但用起来还是挺简单的;不过,也有以下缺点:

1. 细心的读者会发现,Word中有标红的字符,这些都是转换后的错误,自己对照原文小小修改一下就OK了。其实这些是小明手动标红的,目的是想为大家展示一下转换的准确率。和小明一样尝试过其它PDF转Word软件的同学,应该会知道,这些小错误是不可避免的。值得称赞的是,OneNote目前是我发现的转换正确率较高的一款OCR识别软件。

2. 图像清晰度、字体、语种等原因都会导致转换出现错误。另外,只有文本可以完整转换,表格、公式等复杂内容是无法转换的。所以,在复制或截取图像的时候,尽量避免表格、公式及其他特殊符号,从而提高转换准确率。

3. 当复制或插入到OneNote的图像尺寸太大时,因版面因素可能会自动缩放,可能导致清晰度下降,进而影响转换准确率。我们可以右键,“还原为原始尺寸”,见下图:(也可以通过自己主动避免复制或截取大尺寸图像,来提高准确率.)

4. 本文介绍的方法,只适合于小范围需要转换的文档或图片,几十页的非标准PDF也可以处理,只不过很费力,所以不推荐使用此方法。今天的教程到此结束,下次为大家带来一款软件(Abbyy FineReader 12),可以轻松识别大PDF文档,准确率也蛮高,敬请期待!


标签: PDF转Word OneNote2010 OCR图文识别

©2014-2016 小明的自留地 鄂ICP备14009486号