-
几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见.
一、词库
词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下:
地区 82
重要 81
新华社 80
技术 80
会议 80
自己 79
干部 78
职工 78
群众 77
没有 77
今天 76
同志 76
部门 75
加强 75
...
代码结构问题进行的反思
根源:
开发架构:面向对象还是过程?
发展过程
我建议采用面向对象的架构方法部署新系统的编码结构,在向同事演示过后,他觉得写起来很麻烦,要多写很多代码,并不能提高编码效率,而后继续使用函数编写。
反思
架构人员的任务是:构建适合团队开发能里的架构,使团队高质量的开发项目。
对于编写效率来讲,oo强调代码的可读性以及职责明确,这一切都是为了使程序员之间更好的协同工作。而面向过程对于程...
中文分词技术的调研
中文分词的背景
l 什么是中文分词
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。对于英文句子,计算机可以很简单通过空格知道“student”是一个单词,但是对于中文句子而言,不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成...
想起同学的一首诗词
年幼促成愁
伴身多少秋
叹生涯
恨把名求
(后面有些忘了找机会补上 肯定不是恰同学少年 挥斥方遒 ;:)
如何DIY你的标注语料库
如果你想写分词器,那么就需要有标注语料库进行训练,以下是 成 彦 的一些方法:
语料库标注或加工就是对语料(书面语和口语)进行不同层次的语言学分析,并添加相应的“显性”解释性语言学信息的过程。 语料库很关键,只有经过不周层次加工的“熟”语料才可真正用于自然语言处理系统的训练,测试。
目前我在网上找到的标注语料库是北京大学计算语言学研究所免费提供的“PFR人民日报标注语料1.0”。
PFR人民日报...
分词方法三:反向最大匹配分词(BMM)
BMM方法和FMM过程类似,不同点仅在于BMM是从文本的末尾开始处理,每次匹配不成功时去掉的是最前面的一个字。BMM方法的精度要高一些,其错误率是1/245
中文分词的重要概念:条件随机场(Conditional Random Fields, CRFs)
一般序列分类模型常常采用隐马模型(HMM), 像基于类的中文分词, 但隐马 模型中存在两个假设: 输出独立性假设和马尔可夫性假设. 其中, 输出独立性假设要求序列数据严格相互独立才能保证推导的正确性, 而事实上大多数序列数据不能 被表示成一系列独立事件. 而条件随机场则使用一种概率图模型, 具有表达长距离依赖性和交叠性特征的能力, 能够较好地解决标注(分类)偏置等问题的优点, 而且所有特征可以进行全局归一化, 能够求得全局的最优解.
如何生成搜索结果中的动态摘要
在搜索的结果页面,标题下要显示文本的摘要,但是怎样能使用简短的几句话就可以实现动态摘要呢?
本文提供了三个思路方法:
方法一. 只记录关键字在一篇文档中第一次出现的位置
产生动态摘要时, 根据关键字第一次出现的位置p向前后扩展, 扩展至完整的句子, 扩展到需要的摘要的长度为止. 如果同时检索多个关键字, 那么各句动态摘要合并起来, 可能中间需要用省略号连接.
这种方法产生动态摘要的速度最快, 存...
作为博客如何写出好的原创文章?
很多网络编辑对于如何花最短的时间写出象模像样的文章而头疼,今天我就跟大家谈谈这点,如何快速写出一片高质量的文章.
准备工作:
筛选很重要,一定要找一系列有实际意义的文章,例如 栏目下,都找些相关seo的文章,找出一些质量较好的来,然后开始修改.
修改重点:
一.标题一定要修改
(1)替换数字法
比如新浪教育的一篇文章,标题是:“备战高作文:三招让你的文章“亮”起来”,在修改标题的时候,就完全可以改成...
如何做好对于百度的SEO
在这里找些优化的文章给朋友们看,因为很多朋友再作搜索引擎优化工作,另外相对于百度,大家普遍比较重视.
各个搜索引擎对关键词以及搜索偏好是不同,针对国内行情来说我们更注重百度的优化,中文站百度来的流量是最大的。下面我们就说一下如何优化百度也就是SEO
首先搜索引擎喜欢的是什么 当然是 文字 图片蜘蛛是不识别的,有人说我加批注,批注只是几个文字,而一篇文章多则能上百个关键词,流量从此而来,...