众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我...
即利用统计语言模型分词的方法。几乎所有准确率高的中文分词器都会使用统计语言模型实现分词。对于统计语言模型的介绍请参阅
http://googlechinablog.com/2006/04/blog-post.html
统计语言模型 (Statistical Language Models)
Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字(不...
Google Web API打造站内搜索
zhiqiangSeptember 5, 2006 IT技术
WordPress自带了站内搜索,可是搜索结果很不令人满意。它的搜索是通过MYSQL查询得来的,所以首先它无法分词和切词,对于中文搜索效果尤其差。其次它无法在搜索结果中高亮度和重点显示搜索关键词相关内容,而是显示一堆乱七八糟的东西。但用上Google Web API构建的站内搜索后,一切都迎刃而解。
利用Google Web API,可以将搜索内容发送到Goog...