A-A+

Google已可通过OCR检索扫描PDF文档

2008年12月22日 未分类 暂无评论 阅读 1 次

<tags>google, ocr, pdf</tags>

过去,电子扫描文档很少被纳入搜索结果中,因为受技术限制,我们对其中的具体内容不是很有把握,顶多只能针对文档标题进行检索。

Google产品经理Evin Levey宣布,这一切在今天都不同了,因为Google已经可以对任何Adobe PDF格式的扫描文档进行OCR检索,将其转换成文字并纳入索引,在用户搜索的时候就能显示在结果里了,很多重要的文件也可以轻松找到了。

Google表示,这是搜索技术上一个微小而重大的进步,也是Google致力于让全球信息都能轻松检索、使用的宏伟目标的一部分。

遗憾的是,Google没有透露这种技术现在都支持哪些语言,但估计是以英语为主,中文可能性不大,毕竟难度太大了。

点击下边的链接就能看到Google的最新成果了。注意搜索结果已经包含了被检索文档的内容提要,用户既可以直接下载PDF文档并打开,也可以选择“View as HTML”以网页的形式查看。

repairing aluminum wiring
spin lock performance
Mumps and Severe Neutropenia
Steady success in a volatile world

给我留言

Copyright © 浩然东方 保留所有权利.   Theme  Ality 07032740

用户登录