从Office2003的图片中抠出文字
Office 2003版中增加了文档影像工具,可以用来查看、管理、阅读和识别影像文档和传真文本。事实上,通过使用该功能,我们还可以“挖掘”出网页或电子书中的文本。
打开电子书,尽量使用大一点的字体,翻到想要获取的页面,用SnagIt抓取相关内容,然后在“文件”菜单中选择“复制到剪贴板”命令(也可以用其他抓取软件抓取整个屏幕,当然最简单的是Windows自带的Print Screen key,然后在“绘图”程序中剪切保存不需要的部分,再进行复制)。
在开始菜单的microsoft Office工具中打开microsoft Office Document Imaging,在左侧窗口中单击鼠标右键,选择粘贴页面,将复制的图片粘贴到Document Imaging中,然后在工具中选择通过OCR识别文本。Document Imaging的OCR识别程序会识别图片。完成后,在工具中选择“将文本发送到Word”,程序将自动打开Word文档,向您显示从图片中“摘下”的单词。
提示:一般来说识别准确率可以达到95%以上,但是对英文和数字的识别不是很好。
位律师回复
0条评论