分词方法一:从字构造词

分词方法一:从字构造词
关于搜索引擎技术中的中文分词,让很多全文检索爱好者都头痛不已,这里我将几篇有用的文章介绍给大家。 现有的中文分词方法基本上都是采用基于词表的正(反)向最大匹配法进行词语切分。不过这种分词方法具有一个最大的问题,对于未登录词(也就是在词表中并未录入的词)的切分具有先天的不足,一般的解决方法是在基于正向最大匹配法切分模块后再加入一个未登录词模块,用于处理对于未登录词的切分。而在中文...

分词方法二:正向最大匹配分词(FMM)

分词方法二:正向最大匹配分词(FMM)
正向最大匹配分词方法的基本思想是:假设字典中最长的关键字的长度为i,取当前待处理文本的前i个字作为匹配字段w,在字典中查找,若字典中有w, 则匹配成功,w即做为一个词被切分出来;如果匹配失败,则去掉w的最后一个字,继续去字典中查找. 切分出w后,继续对w之后的字词进行上面步骤的切分,直到切分出所有的词为止. 梁南元先生在其论文《书面汉语的自动分词与另一个自动分词系统CDWS》提到,FMM方法的错误切分率为...

分词方法四:基于统计分词

分词方法四:基于统计分词
即利用统计语言模型分词的方法。几乎所有准确率高的中文分词器都会使用统计语言模型实现分词。对于统计语言模型的介绍请参阅 http://googlechinablog.com/2006/04/blog-post.html 统计语言模型 (Statistical Language Models) Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字(不...

不用编写客户端调试WebServices

不用编写客户端调试WebServices
作者: huntes , 出处:中国IT实验室, 2008-04-10 05:00 当你写好了一个Web Services,肯定会需要一个客户端(调用端)来调用它,以检查运行是否正常。 当你写好了一个Web Services,肯定会需要一个客户端(调用端)来调用它,以检查运行是否正常。在Visual Studio.NET中你可以直接点击“运行”按钮,系统会自动生成一个Web Services的测试页来调用Web Method,虽然很方便,但这个测试页是通过HTT...

一次去屠宰场的参观

一次去屠宰场的参观

当有人建议我去参观一家屠宰场以便了解第一手明显的侵害动物权益的材料时,我表示非常怀疑。我怀疑的原因是,我觉得一家屠宰场不能作为一个深刻的或与讨论动物权益相关的,足以与日常生活区分开的残酷行为的实例。我觉得我应该写一些更深奥的东西,或是一些被认为是残酷或不道德的事,例如用棍棒打死幼海豹。我犯了个重大的错误。正是由于绝大多数美国公众对其它生命的肉的需求而导致屠宰场里所发生的一切的这一事实,使之远过于深刻和相关。

基于规则和统计的中文自动文摘系统

基于规则和统计的中文自动文摘系统
基于规则和统计的中文自动文摘系统 Research on Automatic Summarization Based on Rules and Statistics for Chinese Texts   <<中文信息学报>>2006年 第20卷 第05期 作者: 傅间莲, 陈群秀, 期刊-核心期刊 ISSN : 1003-0077(2006)05-0010-07 自动文摘是自然语言处理领域里一个重要课题,本文在传统方法基础上提出了一种中文自动文摘的方法.在篇章结构分析里,我们提出了基于连续段落相...

网站流量统计-百度PK谷歌

网站流量统计-百度PK谷歌
百度推出他的流量统计系统,今天进去测试了一下,感觉用得比Google Analytics 用得舒服些。看其界面及基本功能,感觉和51yes比较相似,但51yes加入到网页的代码已经被GOOGLE列为有恶意行为的代码后,建议大家不要再去使用了。总体比较百度的流量统计功能没有Google Analytics强大,但就某一种功能而言,百度做得要细致一些。 关键字分析来讲,Google Analytics 只给出了关键词排名,没有指出来源。而百度指...

Wordpress的Blog系统如何显示全文或者摘要

Wordpress的Blog系统如何显示全文或者摘要
Wordpress论坛里,有些人曾几次问过如何在首页显示日志的摘要,或者是想把本来显示的摘要改成全文显示。在QQ的Wordpess群里,也有好多人问起。其实显示摘要或者全文是根据选择的模板不同,而有所区别的。虽然这个问题很简单,但还是有必要总结一下。 首先我们要明白模板文件的调用规则: 显示Blog首页调用的文件为index.php 显示单篇日志调用的single.php 显示存档(分类存档,按月存档)调用的是archive.p...

如何用GOOGLE分析统计站内搜索流量

如何用GOOGLE分析统计站内搜索流量
前些天我曾推荐用Google提供的自定义搜索来打造你的站内搜索引擎,其中有一个理由就是CSE(Custom Search Engine)可以统计你的读者在你的网站搜索情况。11月2日Google Analytics官方博客介绍:GOOGLE分析(google analytics)在其统计系统中推出了一个新的功能,统计站内搜索的流量,并为你生成相关报告。说白了,就是可以把你博客的访问者的搜索行为记录下来,报告给你。 为什么要统计站内搜索的流量? ...
Copyright © 浩然东方 保留所有权利.   Theme  Ality 07032740

用户登录