A-A+
中文分词组件 KTDictSeg 1.2 版本发布及算法简介
中文分词组件 KTDictSeg 1.2 版本发布及算法简介
作者:肖波
2007/6 南京
经过一周的工作,完成了KTDictSeg 1.2 版本的开发,该版本对词库进行的初步整理,并增加了如下功能
1、 增加了中文人名判断
2、 增加了正向匹配分词和反向匹配分词的选项
3、 增加了停用词过滤
4、 增加了词性标注
该版本对算法进行了改进
算法步骤如下
1) 预分词:预分词以 KTDictSeg 1.0 版本的算法为基础(参见 KTDictSeg 一种简单快速准确的中文分词方法),在发现多个可选结果时,判断上增加了对词性权重的判断,以提高判断的准确性。
2) 规则判断,1.2 版本增加了基于规则的分词判断功能,并定义了规则接口,使用者可以任意增加符合该接口规则的自定义规则。1.2版本中内置了三个规则(数词合并规则,词性比对规则和中文人名匹配规则)
3) 未登录词召回
1.2版本由于加入的对词性的判断,效率比1.0 版本略有下降,大概在 400Kbytes/s左右,读入字典的时间也有所加长,这些都有待后续改进。
1.2 版本的分词准确性方面比 1.0 版本有了较大提高,但还有不少值得改进的地方。中文分词目前解决歧异的方法通常有两种即基于规则的方法和基于统计的方法,目前版本只提供的基于规则的方法,后续版本将考虑采用规则和统计相结合的方法,进一步提高分词的准确性。
开源代码下载地址:http://www.cnblogs.com/Files/eaglet/KTDictSeg_v1.2.02.rar