中文分词组件 KTDictSeg 1.2 版本发布及算法简介 中文分词组件 KTDictSeg 1.2 版本发布及算法简介 作者:肖波 2007/6 南京 经过一周的工作,完成了KTDictSeg 1.2 版本的开发,该版本对词库进行的初步整理,并增加了如下功能 1、 增加了中文人名判断 2、 增加了正向匹配分词和反向匹配分词的选项 3、 增加了停用词过滤 4、 增加了词性标注 该版本对算法进行了改进 算法步骤如下 1) 预分词:预分词以 KTDictSeg 1.0 版本的算法为基础(参见 KTDictSeg 一种简... 2008年11月25日 未分类 暂无评论 喜欢 0 阅读 1 次 阅读全文
关于后缀树的一些理解 要理解suffix tree就首先要理解Trie 还好我在刚进雅虎的时候接触到了Double Array Trie的一个具体实现 对Trie有着比较深刻的了解。 Trie的优势就是他能在o(n)时间内搜索一个长度为n的字符串s是否在字典里。 关于Trie的资料,有下面几个链接可以参考 http://www.allisons.org/ll/AlgDS/Tree/Trie/ http://linux.thai.net/~thep/datrie/datrie.html 言归正传,简单点说,后缀树就是将一个给定字符串的所有后... 2008年11月25日 学习随笔 暂无评论 喜欢 0 阅读 1 次 阅读全文