A-A+

语言研究中的词频统计

2008年12月30日 学习随笔 暂无评论 阅读 1 次

随着计算机的普及以及统计软件的开发,在语言研究中进行统计分析,可以说越来越方便了。对这一研究方法,本人没有做系统的考察,仅就手头现有的资料谈一点粗浅的认识,希望能引起大家的讨论,起到抛砖引玉的作用。
一、 什么是概率
设事件A在n次重复试验中发生的次数为r。当试验的次数n很大时,事件A发生的频率w(A)=r/n稳定地在某一数值p的附近摆动;一般说来,随着试验次数的增多,这种摆动的幅度越来越小,则称数值p为事件A发生的概率,记作
P(A)=p
二、 怎么计算词频

从上述定义我们可以看出,要统计词语W出现的概率,小规模语料是不能说明问题的,一般规模语料最好按规模分几次统计,如10万字统计一次,20万字统计一次,30万字统计一次……,只有当W出现的次数随着语料规模的增大变化很小(也就是摆动很小)时,才能确定W的频率。如果是超大规模的语料,一般只要统计一次就够了。
设语料含n个词,词语W出现r次,则W在这个语料中出现的频率为
r/n
如果统计两个词(设为w1,w2)结合的紧密度,比较简单的算法是:
P(w1|w2)=r(w1, w2)/r(w1)r(w2)
分子是两个词共同出现的次数r(w1,w2),分母是两个词各自出现的次数。公式说明,w1与w2同现的次数很多,或者虽然两个词在文本中出现不多,但这不多的几次都是成对出现,都可以说明它们受约束的程度深,也就是说搭配强度高。相反,如果两个词同现次数低,或者虽然同现次数高,但分别出现的次数也很高,搭配强度就会比较低。该公式统计相邻的两个词语比较可靠,如果处理任意两个词的搭配能力,就需要考虑距离因素,一般说来,距离越远,搭配强度越低,这样公式会复杂一些,可参考黄昌宁《语料库语言学》(P182)(2002,商务印书馆)
三、 如何分析统计数据
统计得到的结果数据本身就是对语言现象的一种描述,但只停留在描述本身,就降低了统计的意义。这种描述该怎么进一步分析,我粗略的分为三种:
(1) 解释性分析:通过不同词语或词语在不同环境中的频率,可以看出语言中的不平衡现象,解释性分析就是分析这种不平衡是怎么产生的。这时可以用认知理论进行解释,可以从历时的角度分析,等等
(2) 归纳规律:根据使用频率可以看出在不同条件下的语言使用规律,如果是意义相同的两个词语频率不同,找出频率不同的条件,如语域、语法等,归纳出该词语的使用规律。具体实例可以参考黄昌宁《语料库语言学》P207对begin和start的调查,任海波“现代汉语AABB重叠式词构成基础的统计分析”(《中国语文》2001,4)
(3) 直接用于自然语言处理:如词性标注,当遇到兼类词时,可以根据两种词性的频率,优先标注成频率高的那个词性,这样做势必会有一些错误,但仍能保证一定的正确率。具体实例可参考刘开瑛《中文文本自动分词和标注》(商务印书馆,2000)
(4) 直接用于对外汉语教学:例如划分对外汉语教学词表等级,频率是一个重要参数,其他参数还包括语义简单性、语法简单性等等

给我留言

Copyright © 浩然东方 保留所有权利.   Theme  Ality 07032740

用户登录