如何DIY你的标注语料库

如何DIY你的标注语料库
如果你想写分词器,那么就需要有标注语料库进行训练,以下是 成 彦 的一些方法: 语料库标注或加工就是对语料(书面语和口语)进行不同层次的语言学分析,并添加相应的“显性”解释性语言学信息的过程。 语料库很关键,只有经过不周层次加工的“熟”语料才可真正用于自然语言处理系统的训练,测试。 目前我在网上找到的标注语料库是北京大学计算语言学研究所免费提供的“PFR人民日报标注语料1.0”。 PFR人民日报...

如何生成搜索结果中的动态摘要

如何生成搜索结果中的动态摘要
在搜索的结果页面,标题下要显示文本的摘要,但是怎样能使用简短的几句话就可以实现动态摘要呢? 本文提供了三个思路方法: 方法一. 只记录关键字在一篇文档中第一次出现的位置 产生动态摘要时, 根据关键字第一次出现的位置p向前后扩展, 扩展至完整的句子, 扩展到需要的摘要的长度为止. 如果同时检索多个关键字, 那么各句动态摘要合并起来, 可能中间需要用省略号连接. 这种方法产生动态摘要的速度最快, 存...

分词方法二:正向最大匹配分词(FMM)

分词方法二:正向最大匹配分词(FMM)
正向最大匹配分词方法的基本思想是:假设字典中最长的关键字的长度为i,取当前待处理文本的前i个字作为匹配字段w,在字典中查找,若字典中有w, 则匹配成功,w即做为一个词被切分出来;如果匹配失败,则去掉w的最后一个字,继续去字典中查找. 切分出w后,继续对w之后的字词进行上面步骤的切分,直到切分出所有的词为止. 梁南元先生在其论文《书面汉语的自动分词与另一个自动分词系统CDWS》提到,FMM方法的错误切分率为...

一次去屠宰场的参观

一次去屠宰场的参观

当有人建议我去参观一家屠宰场以便了解第一手明显的侵害动物权益的材料时,我表示非常怀疑。我怀疑的原因是,我觉得一家屠宰场不能作为一个深刻的或与讨论动物权益相关的,足以与日常生活区分开的残酷行为的实例。我觉得我应该写一些更深奥的东西,或是一些被认为是残酷或不道德的事,例如用棍棒打死幼海豹。我犯了个重大的错误。正是由于绝大多数美国公众对其它生命的肉的需求而导致屠宰场里所发生的一切的这一事实,使之远过于深刻和相关。

网站流量统计-百度PK谷歌

网站流量统计-百度PK谷歌
百度推出他的流量统计系统,今天进去测试了一下,感觉用得比Google Analytics 用得舒服些。看其界面及基本功能,感觉和51yes比较相似,但51yes加入到网页的代码已经被GOOGLE列为有恶意行为的代码后,建议大家不要再去使用了。总体比较百度的流量统计功能没有Google Analytics强大,但就某一种功能而言,百度做得要细致一些。 关键字分析来讲,Google Analytics 只给出了关键词排名,没有指出来源。而百度指...

百度GOOGLE统计的秘密

百度GOOGLE统计的秘密
    3年以前,一个统计分析领域的专家曾经告诉笔者,GOOGLE和百度,在技术上足够做到分析你是一个男人还是一个女的,当时听起来感觉几乎不可能的事情。  07年在搜索引擎研究领域出现过一张并不是很清晰的Google和百度的鼠标点击热图(如下),图的出处未知,让笔者很是惊讶,从图中可以看出Google和百度用户行为的显著区别,也可以看出在这两个搜索引擎中排名网站的流量分配的大概情况。甚至,笔者联想到如...

美国《连线》杂志评出2008年十大创新产品

美国《连线》杂志评出2008年十大创新产品
  新产品层出不穷,在即将过去的2008年里,就涌现出不少的新型产品让我们爱不释手,在告别旧岁之即,我们不妨回望一下2008年的产品亮点:  据国外媒体报道,新产品层出不穷,在即将过去的2008年里,就涌现出不少的新型产品让我们爱不释手。这些产品虽然各有特色,但随着2009年新的一年的到来,未来推出的新产品将更上一层楼,无疑会让我们渐渐淡忘今年的好东西。在告别旧岁之即,我们不妨回望一下2008年的...

十大AdSense工具

十大AdSense工具
[原文作者]:Nick [原文地址]:Top 10 Adsense Tools  开门见山,这篇文章的本意就是为了介绍几个能帮助您掌握Goolge Adsense的最好的工具。不过,我还是从我个人的喜好出发,把这些工具按照其实用性排了一下顺序(因为比出个高低真不是那么容易–全看你怎么使用)。 ———————- 第10位 Contextual Ads Preview/Comparison Tool 可以拿AdSense和其它的广告刊登商(比如Chitika, Yahoo)做比较的一个工具。可以...

Google排名因素详解

Google排名因素详解
由国外37名优秀的搜索引擎优化界高手共同参与,以投票形式评论影响Google排名的重要因素,此次评选非常有价值,尽管没有将200多个Google排名因素全部列出,但Google排名算法中90%~95%的重要成分已经包含在其中了。 1、 4.9  关键词     关键词在网站Title上的使用。 2、 4.4  外部链接  外部链接的锚文字。 3、 4.4  网站品质  网站的外部链接流行度、广泛度。 4、 4.1  网站品质  域名年龄(从被搜索引擎...
Copyright © 浩然东方 保留所有权利.   Theme  Ality 07032740

用户登录