有很多网站都在网页上加个“站内搜索引擎”、“搜索引擎”、“全文检索”等等相关字样。
用户一用,结果发现,既不能多关键组合查询,也不能支持国际语法,甚至不能支持全文检索,就更别谈不支持相关性排序等真正的搜索引擎具备的功能了。这些搜索和真正的站内搜索引擎有和区别呢?
真正的全文检索应具备 相关性排序技术 和 分词索引功能。 如果需要进行互联网的信息抓取和采集那么还需要网络...
什么是垂直搜索?
垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。
垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而...
搜索引擎antispam系统设计指南[转]
搜索引擎ANTI-SPAM是目前比较迫切需要解决的问题,本文通过如何构造一个有效的ANTI-SPAM系统这一主题在设计原则,系统整体结构,每个技术的实施细节以及实施步骤等方面进行了探讨,希望能够成为有效设计优秀ANTI-SPAM系统的技术指南和路线规划说明.
构建支持Master/Slave读写分离的数据库操作类
一般对于访问量比较大的网站来说,采用基本的MySQL Master/Slave 结构是很正常,而且一般都是一台Master,多台Slave的情况,但是一般在进行这个访问的时候问题比较多,因为读写操作必须分离,所以今天没事就构造了这个数据库操作类。
完美解决PHP中文乱码
php编程遇到的最大问题就是中文乱码,经过上网查资料与探索,总算找到比较好的解决方法。PHP中文乱码一般是字符集问题,编码主要有下面几个问题。
一. 首先是PHP网页的编码
1. php文件本身的编码与网页的编码应匹配
a. 如果欲使用gb2312编码,那么php要输出头:header(“Content-Type: text/html; charset=gb2312"),静态页面添加<meta http-equiv="Content-Type" content="text/html; charset=gb2312...
google等各个搜索引擎工作分析
本站自增加的statpress插件的统计功能以后发现最勤劳的是google
有道位居第二,看来大有后来居上之意,特意分析了一下有道的搜索情况
他的库量很大而且百科收集的也很公正,不肯定以后是否因收费学百度
而且通过搜索引擎查询访问来的几乎都是google,甚至包括了他的分布各个地点
而有道看来是闷声收集数据突然爆发的可能很大。而且数据很全
有意思的是soso通过关键词检索到访也很令我吃惊,因为在蜘蛛上没...
Google学术检索晋级要诀
关键词的选择在搜索中起到决定性的作用,所有搜索技巧中,关键词选择是最基本也是最有效的,用特定的词语一下子可以找到目标资料。关键词可以是主题词、作者、会议、刊物、书名或者作品标题等。但有时候关键字不易确定,则可以通过近义词、相关词等关键字缩小检索范围。
根据浏览器语言自动切换相关语言站点
假如 En Site URL : en.abc.com
假如 Cn Site URL : cn.abc.com
JavaScript语言:
01
把这段代码加入到首页的和之间~!~!
其中 en.abc.com换成你英文站地址,cn.abc.com换成你中文站地址。
[ 本帖最后由gohsy 编辑 ]
百度中文分词技术
[tags]分词方法,seo,中文分词技术,基于字符串匹配,分词算法,基于理解,基于统计[/tags]
中文分词技术
英文是以词为单位的, 词和词之间是靠空格隔开, 而中文是以字为单位, 句子中所有的字连起来才能描述一个意思。例如, 英文句子 “ I am a seoer” , 用中文则为: “ 我是一个搜索引擎优化师” 。 计算机可以很简单通过空格知道 seoer是一个单词。但是不能很容易明白“ 搜索引擎” 、 “ 优化师” 几个个字合起来才表...
Windows下让Apache支持rewrite和.htaccess
作为一个使用WordPress我为了调试各式各样的主题和插件,不得不自己搭建一套开发环境。由于现在个人电脑都是Windows,所以也就自然而然的使用了Win+Apache+MySQL+PHP了。
不过这样的开发环境还是有很多问题的,比如我这两天想看看永久链接的效果,发现设定了永久链接后,竟然除了主页每一页都变成了HTTP404,这个……原来是我的Apache没有支持mod_rewrite