基于统计 | 浩然东方

信息检索的核心支撑技术

从历史上看，信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段。
目前，信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的Web内容；信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众，他们对信息检索从结果到方式提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。

2008年12月24日技术文章暂无评论喜欢 0 阅读 1 次阅读全文

基于统计的无词典分词方法

通过分析词的结合模式, 提出无词典分词模型, 并对该模型进行实验测试。测试结果表明, 无词典分词模型能够满足快速分词的要求。

2008年12月17日资源分享暂无评论喜欢 0 阅读 1 次阅读全文

什么是中文分词？

众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。我...

2008年12月17日未分类暂无评论喜欢 0 阅读 1 次阅读全文

百度中文分词技术

[tags]分词方法,seo,中文分词技术,基于字符串匹配,分词算法,基于理解,基于统计[/tags] 中文分词技术英文是以词为单位的, 词和词之间是靠空格隔开, 而中文是以字为单位, 句子中所有的字连起来才能描述一个意思。例如, 英文句子 “ I am a seoer” , 用中文则为: “ 我是一个搜索引擎优化师” 。计算机可以很简单通过空格知道 seoer是一个单词。但是不能很容易明白“ 搜索引擎” 、 “ 优化师” 几个个字合起来才表...

2008年12月17日学习随笔暂无评论喜欢 0 阅读 1 次阅读全文

分词方法四：基于统计分词

即利用统计语言模型分词的方法。几乎所有准确率高的中文分词器都会使用统计语言模型实现分词。对于统计语言模型的介绍请参阅 http://googlechinablog.com/2006/04/blog-post.html 统计语言模型 (Statistical Language Models) Google 的使命是整合全球的信息，所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来，人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字（不...

2008年12月02日编程开发暂无评论喜欢 0 阅读 1 次阅读全文