/**
* @author : walkerlee
* @copyright : www.neatstudio.com | www.walkerlee.net
*/
转载请保留以上信息。
注:本文使用的MySQL版本为:MySQL 4.0.x
在MySQL4中,是已经开始支持全文检索(索引)的了。但是只是对英文支持全文检索。
由于英文在书写上的特殊性,使得分词算法相对中文来说,简单得多。一般来说,我们可以通过单词与单词之间的空格,以及标点符号来完成这个分词过程。
但是就中文来说,...
信息检索的核心支撑技术
从历史上看,信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。
目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容;信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。
社区全文检索引擎Hyper Estraier 学习笔记
今天突然想起霍炬曾告诉过我的一个日本人开发的全文检索引擎,于是找他问了,并下载下来看了看。打开电脑,学习Hyper Estrainer的文档,现在趁着没忘,做个笔记:
1.Hyper Estraier是一个用C语言开发的全文检索引擎,他是由一位日本人开发的.工程注册在sourceforge.net(http://hyperestraier.sourceforge.net).
2.Hyper的特性:
高速度,高稳定性,高可扩展性…(这可都是有原因的,不是瞎吹)
P2P架构(可译为...
Tokyo Dystopia:基于Tokyo Cabinet的一个全文检索系统
项目主页:
http://tokyocabinet.sourceforge.net/dystopiadoc/
介绍:
Tokyo Dystopia 是一个全文检索系统,你可以搜索包含某短语的一系列记录,它的特性如下:
1.搜索的高效。
2.目标文标的高可靠性
3.N-gram 法的高召回率 (我加的,原文中没有:召回率是搜索引擎中对搜索结果能否全面的量化,召回率越高,搜索结果中包含相关文档越多,同时一般来说搜索结果越不精确,精确率越低。)
4.短语匹配,前缀匹...
基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计
[2008-7-27 22:29 | by 张宴 ]
[文章作者:张宴本文版本:v1.0 最后修改:2008.07.27 转载请注明原文链接:http://blog.s135.com/read.php/360.htm]
前言:本文阐述的是一款经过生产环境检验的千万级数据全文检索(搜索引擎)架构。本文只列出前几章的内容节选,不提供全文内容。
在DELL PowerEdge 6850服务器(四颗64 位Inter Xeon MP 7110N处理器 / 8GB内存)、RedHat AS4 Linux操作系统、MySQ...
通过MySQL内置全文检索实现中文的相关检索
原文作者: walker
整理日期: 2007-02-08
关键字:MySQL 全文检索 全文索引 中文分词 二元分词 区位码 相似度
/**
* @author : walkerlee
* @copyright : www.neatstudio.com | www.walkerlee.net
*/
转载请保留以上信息。
注:本文使用的MySQL版本为:MySQL 4.0.x
在MySQL4中,是已经开始支持全文检索(索引)的了。但是只是对英文支持全文检索。
由于英文在书写上的特殊性,使得分词算法相对中文来说,简...
自动标引
自动标引
automatic indexing
利用计算机系统从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志的过程。检索标志从机器词典中取出的叫赋词标引,从文本中抽出的叫抽词标引。抽词标引,又可分为全关键词标引和主关键词标引。从文本中抽取全部关键词作为检索标志的叫全关键词标引;只从文本中抽取表示主题的关键词作为检索标志的叫主关键词标引。自动标引与计算机情报检索、应用语言...