要理解suffix tree就首先要理解Trie
还好我在刚进雅虎的时候接触到了Double Array Trie的一个具体实现
对Trie有着比较深刻的了解。
Trie的优势就是他能在o(n)时间内搜索一个长度为n的字符串s是否在字典里。
关于Trie的资料,有下面几个链接可以参考
http://www.allisons.org/ll/AlgDS/Tree/Trie/
http://linux.thai.net/~thep/datrie/datrie.html
言归正传,简单点说,后缀树就是将一个给定字符串的所有后...
MySQL优化经验
同时在线访问量继续增大 对于1G内存的服务器明显感觉到吃力严重时甚至每天都会死机 或者时不时的服务器卡一下 这个问题曾经困扰了我半个多月MySQL使用是很具伸缩性的算法,因此你通常能用很少的内存运行或给MySQL更多的被存以得到更好的性能。
安装好mysql后,配制文件应该在/usr/local/mysql/share/mysql目录中,配制文件有几个,有my- huge.cnf my-medium.cnf my-large.cnf my-small...
heartbeat+LVS-ipvsadm+ldirectord搭建lvs DR集群
heartbeat:用于搭建双机热备环境,可以通过专门的心跳线来连接双机,也可以通过普通的网线来连接。
LVS-ipvsadm:负载均衡软件
ldirector:有两个主要功能,一是调用ipvsadm命令生成lvs的策略,二是对realserver进行健康检测
一、安装环境:
系统:
centos5.2 32位(自带内核默认支持lvs,不需要重新编译内核)
lvs:
VIP:10.129.60.199
主:eth0:10.129.60.188 eth1:192.168.23.128
...
set_magic_quotes_runtime 和 magic_quotes_gpc
set_magic_quotes_runtime() 可以让程序员在代码中动态开启或关闭 magic_quotes_runtime,set_magic_quotes_runtime(1) 表示开启,set_magic_quotes_runtime(0) 则表示关闭。当set_magic_quotes_runtime(1)时,从数据库或通过fread之类的函数读取的文本,将自动对' "和自动加上反斜杠进行转义,防止溢出。这在对数据库的数据进行转移的时候非常有用。但在一般情况下,应当将其关闭,否则从数据库读取出来...
换上新验证码,附代码
最近博客老是被垃圾评论骚扰。之前的验证码开启后又有群众反映评论不了。前些天在小O的博客上看到他用了简单数学运算的验证码,于是自己也写了个。刚刚换了上来,大家看看如何,欢迎提出建议。
代码:
PHP代码
<?php
//-------------------------------------
// 文件说明:数学运算验证码
// 文件作者:Jesse Lee
// 作者主页:http://www.lisijie.com.cn
// 最后更新:2008-09-07...
几个应付DOS攻击的管理脚本
关键字: dos
$ cat dos_ip.sh
#!/bin/bash
netstat -an|grep SYN_RECV|awk -F' ' '{print $5;}'|awk -F':' '{print $1;}'|sort| uniq -c | sort -nr | head -n $1
$ cat dos_attack.sh
#!/bin/bash
netstat -an|grep SYN_RECV|awk -F' ' '{print $5;}'|awk -F':' '{print $1;}'|sort| uniq -c | sort -nr | head -n $1|awk -F' ' '{print $2}'|xargs --replace=TTT /sbin/iptables -t filter -I INPUT...
我们真的了解PageRank吗?
作者:佚名
1. PageRank 仅是数量巨大的Google用来决定页面相关性与重要性的工具之一。
2. Google将从页面A指向页面B的一个链接解释为一次A对B的投票。Google不仅考虑投票的绝对数量,在更多方面还要分析发出投票的页面本身,不过,在计算PR值的时候这些方面并不会计算在内。
3. PageRank值基于来路链接,但不仅仅是链接的数量——链接的相关性和重要性非常关键。
4. PR(A) = (1-d) + d(PR(t1)/C(t1) + ...
他引来的阳光
故事集《伟人——金正日》
李一馥、尹相铉著,朝鲜外文出版社1989年中文版
搜索引擎系统学习与开发实践总结[转载]
一、搜索引擎概述搜索引擎的发展历史在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。 现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件...
中文分词组件 KTDictSeg 1.2 版本发布及算法简介
中文分词组件 KTDictSeg 1.2 版本发布及算法简介
新一篇: 一款轻量级的桌面WebServer通讯组件
作者:肖波
个人博客:http://blog.csdn.net/eaglet
2007/6 南京
经过一周的工作,完成了KTDictSeg 1.2 版本的开发,该版本对词库进行的初步整理,并增加了如下功能
1、 增加了中文人名判断
2、 增加了正向匹配分词和反向匹配分词的选项
3、 增加了停用词过滤
4、 增加了词性标注
该版本对算法进行了改进
算...