BMM方法和FMM过程类似,不同点仅在于BMM是从文本的末尾开始处理,每次匹配不成功时去掉的是最前面的一个字。BMM方法的精度要高一些,其错误率是1/245
中文分词的重要概念:条件随机场(Conditional Random Fields, CRFs)
一般序列分类模型常常采用隐马模型(HMM), 像基于类的中文分词, 但隐马 模型中存在两个假设: 输出独立性假设和马尔可夫性假设. 其中, 输出独立性假设要求序列数据严格相互独立才能保证推导的正确性, 而事实上大多数序列数据不能 被表示成一系列独立事件. 而条件随机场则使用一种概率图模型, 具有表达长距离依赖性和交叠性特征的能力, 能够较好地解决标注(分类)偏置等问题的优点, 而且所有特征可以进行全局归一化, 能够求得全局的最优解.
如何生成搜索结果中的动态摘要
在搜索的结果页面,标题下要显示文本的摘要,但是怎样能使用简短的几句话就可以实现动态摘要呢?
本文提供了三个思路方法:
方法一. 只记录关键字在一篇文档中第一次出现的位置
产生动态摘要时, 根据关键字第一次出现的位置p向前后扩展, 扩展至完整的句子, 扩展到需要的摘要的长度为止. 如果同时检索多个关键字, 那么各句动态摘要合并起来, 可能中间需要用省略号连接.
这种方法产生动态摘要的速度最快, 存...
作为博客如何写出好的原创文章?
很多网络编辑对于如何花最短的时间写出象模像样的文章而头疼,今天我就跟大家谈谈这点,如何快速写出一片高质量的文章.
准备工作:
筛选很重要,一定要找一系列有实际意义的文章,例如 栏目下,都找些相关seo的文章,找出一些质量较好的来,然后开始修改.
修改重点:
一.标题一定要修改
(1)替换数字法
比如新浪教育的一篇文章,标题是:“备战高作文:三招让你的文章“亮”起来”,在修改标题的时候,就完全可以改成...
如何做好对于百度的SEO
在这里找些优化的文章给朋友们看,因为很多朋友再作搜索引擎优化工作,另外相对于百度,大家普遍比较重视.
各个搜索引擎对关键词以及搜索偏好是不同,针对国内行情来说我们更注重百度的优化,中文站百度来的流量是最大的。下面我们就说一下如何优化百度也就是SEO
首先搜索引擎喜欢的是什么 当然是 文字 图片蜘蛛是不识别的,有人说我加批注,批注只是几个文字,而一篇文章多则能上百个关键词,流量从此而来,...
分词方法一:从字构造词
关于搜索引擎技术中的中文分词,让很多全文检索爱好者都头痛不已,这里我将几篇有用的文章介绍给大家。
现有的中文分词方法基本上都是采用基于词表的正(反)向最大匹配法进行词语切分。不过这种分词方法具有一个最大的问题,对于未登录词(也就是在词表中并未录入的词)的切分具有先天的不足,一般的解决方法是在基于正向最大匹配法切分模块后再加入一个未登录词模块,用于处理对于未登录词的切分。而在中文...
分词方法二:正向最大匹配分词(FMM)
正向最大匹配分词方法的基本思想是:假设字典中最长的关键字的长度为i,取当前待处理文本的前i个字作为匹配字段w,在字典中查找,若字典中有w, 则匹配成功,w即做为一个词被切分出来;如果匹配失败,则去掉w的最后一个字,继续去字典中查找. 切分出w后,继续对w之后的字词进行上面步骤的切分,直到切分出所有的词为止.
梁南元先生在其论文《书面汉语的自动分词与另一个自动分词系统CDWS》提到,FMM方法的错误切分率为...
分词方法四:基于统计分词
即利用统计语言模型分词的方法。几乎所有准确率高的中文分词器都会使用统计语言模型实现分词。对于统计语言模型的介绍请参阅
http://googlechinablog.com/2006/04/blog-post.html
统计语言模型 (Statistical Language Models)
Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字(不...
不用编写客户端调试WebServices
作者: huntes , 出处:中国IT实验室,
2008-04-10 05:00
当你写好了一个Web Services,肯定会需要一个客户端(调用端)来调用它,以检查运行是否正常。
当你写好了一个Web Services,肯定会需要一个客户端(调用端)来调用它,以检查运行是否正常。在Visual Studio.NET中你可以直接点击“运行”按钮,系统会自动生成一个Web Services的测试页来调用Web Method,虽然很方便,但这个测试页是通过HTT...
一次去屠宰场的参观
当有人建议我去参观一家屠宰场以便了解第一手明显的侵害动物权益的材料时,我表示非常怀疑。我怀疑的原因是,我觉得一家屠宰场不能作为一个深刻的或与讨论动物权益相关的,足以与日常生活区分开的残酷行为的实例。我觉得我应该写一些更深奥的东西,或是一些被认为是残酷或不道德的事,例如用棍棒打死幼海豹。我犯了个重大的错误。正是由于绝大多数美国公众对其它生命的肉的需求而导致屠宰场里所发生的一切的这一事实,使之远过于深刻和相关。