A-A+
使用word语法分析制作词表
没有一个输入法词库能够囊括常用词。比如说,“曹操”在三国演义中是常用词,在西游记中频率为0。输入法词库不能满足统计一部作品词频的需求,这就需要手动添加新词(程序自动生成词库技术还不成熟,会产生大量垃圾词汇)。
可以使用word自带的拼写和语法检查功能将输入法没有的词语纳入到统计当中。
语法检查的原理是用分词技术划分词语,找到每个词的词性,再运用少量的语法符号分析语法,比如 [NV]主谓结构是句子的最基本构成方式,分析句子时采用从两边向中间分析的技术,先划分词语,再找到句子主语和谓语,然后找其他句子层次,如果谓语中心词是及物动词,就把谓语识别成 [VN]动宾结构,找出主干后再找修饰词,最后判断这些结构是否符合词语搭配规则(如[N&N]结构,“苹果和梨”是正确的,“水果和梨”是错误的),如果这些过程进行顺利就把这个句子识别成一个正确的句子。
这是最自然的语法检查方式,word还没有能够做到。目前它只能找不可以单用的字词,如果句子中这些字单独出现,就把它识别成错误,并允许通过自造词的方式让其以后可以识别输入法主词库没有的词汇。
例:(这是三国演义的一个句子,加下划线的字词被识别成拼写错误或特殊用法)
两阵对圆,只见吕布顶束发金冠,披百花战袍,擐唐猊铠甲,系狮蛮宝带,纵马挺戟,随丁建阳出到阵前。
这时可以把“唐猊”“狮蛮宝带”“丁建阳”作为临时词语(临时词语是在一些特定领域高频出现的词语,随着时间推移有可能变成通用词汇,或者是常用但被输入法漏掉的词语)纳入到三国演义词频统计中,这样可以最大限度地减少漏记词语造成的误差。