非用词 | 浩然东方

Lucene应用越来越多，在对中文对索引过程中，中文分词问题也就越来越重要。在已有的分词模式中，目前比较常用的也是比较通用的有一元分词、二元分词和基于词库的分词三种。一元分词在Java版本上由yysun实现，并且已经收录到Apache。其实现方式比较简单，即将每一个汉字作为一个Token，例如：“这是中文字”，在经过一元分词模式分词后的结果为五个Token：这、是、中、文、字。而二元分词，则将两个相连的汉...

2008年12月24日学习随笔暂无评论喜欢 0 阅读 1 次阅读全文

浩然东方

浩然东方关注微信、android、IOs、app 致力于服务端数据优化、分析、智能

基于Lucene的中文分词实现：基于StopWord分割分词