语言研究中的词频统计

语言研究中的词频统计
随着计算机的普及以及统计软件的开发,在语言研究中进行统计分析,可以说越来越方便了。对这一研究方法,本人没有做系统的考察,仅就手头现有的资料谈一点粗浅的认识,希望能引起大家的讨论,起到抛砖引玉的作用。 一、 什么是概率 设事件A在n次重复试验中发生的次数为r。当试验的次数n很大时,事件A发生的频率w(A)=r/n稳定地在某一数值p的附近摆动;一般说来,随着试验次数的增多,这种摆动的幅...

150行代码,搞定中文分词

150行代码,搞定中文分词
中文分词一直是一个看起来似乎比较神秘的东西。记得java中的lucene好像自带了两个分词器。一个是按汉字分,就是一个字分成一个词。比如”我要到饭馆吃饭“,就被分成”我/要/到/饭/馆/吃/饭”.别一个是相邻的两个字分成一个词,分出来的结果是”我要/要到/到饭/饭馆/馆吃/吃饭”.然而这两种虽说在做搜索时建索引什么的操作时也是相当有用的,但是毕竟是一种权宜之计,咱不能一直停留在这个水平上。 下面是来自Rl...

文本挖掘,构造垃圾站

文本挖掘,构造垃圾站
最近为ruby,ruby on rails的灵活和魔幻而着迷。爽。 上上周一个同事给我们介绍了自然语言处理的一些知识,觉得很不错。事实上虽然是雅虎公司的一名工程师,但是因为我不是搜索/邮箱/平台研发这些部门,基本上没有接触到比较深一点的东西,也许对于这些部门来说很简单的东西,对于我来说还是很难以理解的。 课后自己去找了些东西看了看,然后有这样一思路,可以用来构造一个垃圾站。 基本思路是: 1.首先...
Copyright © 浩然东方 保留所有权利.   Theme  Ality 07032740

用户登录