中文分词组件 KTDictSeg 1.2 版本发布及算法简介

中文分词组件 KTDictSeg 1.2 版本发布及算法简介
中文分词组件 KTDictSeg 1.2 版本发布及算法简介 作者:肖波 2007/6 南京 经过一周的工作,完成了KTDictSeg 1.2 版本的开发,该版本对词库进行的初步整理,并增加了如下功能 1、 增加了中文人名判断 2、 增加了正向匹配分词和反向匹配分词的选项 3、 增加了停用词过滤 4、 增加了词性标注 该版本对算法进行了改进 算法步骤如下 1) 预分词:预分词以 KTDictSeg 1.0 版本的算法为基础(参见 KTDictSeg 一种简...

关于后缀树的一些理解

关于后缀树的一些理解
要理解suffix tree就首先要理解Trie 还好我在刚进雅虎的时候接触到了Double Array Trie的一个具体实现 对Trie有着比较深刻的了解。 Trie的优势就是他能在o(n)时间内搜索一个长度为n的字符串s是否在字典里。 关于Trie的资料,有下面几个链接可以参考 http://www.allisons.org/ll/AlgDS/Tree/Trie/ http://linux.thai.net/~thep/datrie/datrie.html 言归正传,简单点说,后缀树就是将一个给定字符串的所有后...
Copyright © 浩然东方 保留所有权利.   Theme  Ality 07032740

用户登录