中文分词组件 KTDictSeg 1.2 版本发布及算法简介
作者:肖波
2007/6 南京
经过一周的工作,完成了KTDictSeg 1.2 版本的开发,该版本对词库进行的初步整理,并增加了如下功能
1、 增加了中文人名判断
2、 增加了正向匹配分词和反向匹配分词的选项
3、 增加了停用词过滤
4、 增加了词性标注
该版本对算法进行了改进
算法步骤如下
1) 预分词:预分词以 KTDictSeg 1.0 版本的算法为基础(参见 KTDictSeg 一种简...
关于后缀树的一些理解
要理解suffix tree就首先要理解Trie
还好我在刚进雅虎的时候接触到了Double Array Trie的一个具体实现
对Trie有着比较深刻的了解。
Trie的优势就是他能在o(n)时间内搜索一个长度为n的字符串s是否在字典里。
关于Trie的资料,有下面几个链接可以参考
http://www.allisons.org/ll/AlgDS/Tree/Trie/
http://linux.thai.net/~thep/datrie/datrie.html
言归正传,简单点说,后缀树就是将一个给定字符串的所有后...