最近的一项调查显示,有三分之二的搜索网站访问用户对搜索结果比较满意。如果考虑到7年前这一比例只有五分之二,这已经相当不简单了。但并非都是好消息,菜鸟级用户仍然受到信息过载的困扰,指定站点搜索仍然需要大量帮助。
对于与特定站点相关的任务,非熟练用户和熟练用户的成功率分别为59%和72%,而完成与整个Web相关任务的成功率分别为52%和67%。总体...
WEB网页结构化信息抽取技术介绍(网页库级)
WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索引擎和通用搜索引擎最大的差别。
如:比较购物搜索那就需要抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”
房产信息搜索那就应该抽取出那应该抽取出:类型、地域、地址、房型、面积、装修情况、租金、联系...
搜索引擎antispam系统设计指南[转]
搜索引擎ANTI-SPAM是目前比较迫切需要解决的问题,本文通过如何构造一个有效的ANTI-SPAM系统这一主题在设计原则,系统整体结构,每个技术的实施细节以及实施步骤等方面进行了探讨,希望能够成为有效设计优秀ANTI-SPAM系统的技术指南和路线规划说明.
信息检索的核心支撑技术
从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。
目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。
社区全文检索引擎Hyper Estraier 学习笔记
今天突然想起霍炬曾告诉过我的一个日本人开发的全文检索引擎,于是找他问了,并下载下来看了看。打开电脑,学习Hyper Estrainer的文档,现在趁着没忘,做个笔记:
1.Hyper Estraier是一个用C语言开发的全文检索引擎,他是由一位日本人开发的.工程注册在sourceforge.net(http://hyperestraier.sourceforge.net).
2.Hyper的特性:
高速度,高稳定性,高可扩展性…(这可都是有原因的,不是瞎吹)
P2P架构(可译为...
google等各个搜索引擎工作分析
本站自增加的statpress插件的统计功能以后发现最勤劳的是google
有道位居第二,看来大有后来居上之意,特意分析了一下有道的搜索情况
他的库量很大而且百科收集的也很公正,不肯定以后是否因收费学百度
而且通过搜索引擎查询访问来的几乎都是google,甚至包括了他的分布各个地点
而有道看来是闷声收集数据突然爆发的可能很大。而且数据很全
有意思的是soso通过关键词检索到访也很令我吃惊,因为在蜘蛛上没...
Google已可通过OCR检索扫描PDF文档
<tags>google, ocr, pdf</tags>
过去,电子扫描文档很少被纳入搜索结果中,因为受技术限制,我们对其中的具体内容不是很有把握,顶多只能针对文档标题进行检索。
Google产品经理Evin Levey宣布,这一切在今天都不同了,因为Google已经可以对任何Adobe PDF格式的扫描文档进行OCR检索,将其转换成文字并纳入索引,在用户搜索的时候就能显示在结果里了,很多重要的文件也可以轻松找到了。
Googl...
基于统计的无词典分词方法
通过分析词的结合模式, 提出无词典分词模型, 并对该模型进行实验测试。测试结果表明, 无词典分词模型能够满足快速分词的要求。
由一个馒头引发的婆媳大战
我是一个南方女孩,在这个饮食文化大融合的时代,我做菜的手艺真是没的说:酸菜鱼、红烧肉、辣子鸡丁......老公的心和胃都被我紧紧拴着。但唯一的遗憾就是我一直不会蒸馒头。作为地道的北方人,老公爱吃馒头的习惯一直保留着,每次在外边看到店铺刚出锅的热馒头,总忍不住上前买两个,忙不迭地掰下一块送入嘴中,大嚼特嚼,一边嚼一边品,品这馒头散发出的麦香,只是每次吃完了都会说,他妈妈蒸的馒头...
四维空间
【四维空间概念】
四维空间是一个时空的概念。简单来说,任何具有四维的空间都可以被称为“四维空间”。不过,日常生活所提及的“四维空间”,大多数都是指爱因斯坦在他的《广义相对论》和《狭义相对论》中提及的“四维时空”概念。根据爱因斯坦的概念,我们的宇宙是由时间和空间构成。时空的关系,是在空间的架构上比普通三维空间的长、宽、高三条轴外又多了一条时间轴,而这条时间的轴是一条虚...