鼠标走过40年 发明者未成为大富翁 计算机鼠标自诞生以来已走过40个春秋。发明者9日将回到鼠标诞生地美国加利福尼亚州为它庆祝生日。 鼠标之父恩格勒巴特 40岁生日 鼠标1968年12月9日在美国加州旧金山面世。加州斯坦福研究所的道格.恩格勒巴特和同事们当年致力于研究一种能更加简捷操作电脑的方法。鼠标在这一研究过程中诞生。 “我们设计各项实验,鼠标的测试结果均胜过其他方式,”英国《每日电讯报》2日援引恩格勒巴特的话说,“尽管之前我... 2008年12月03日 业界资讯 暂无评论 喜欢 0 阅读 1 次 阅读全文
站在计算机技术研究的最前沿 在日前中科院计算所举办的实验室开放日和学术交流大会上,记者走进了中科院计算机系统结构重点实验室,亲眼见识了研究人员正在进行的一批研究项目。 ■ 本报记者 邹大斌 从事计算机技术研究的科学家、研究人员现在在研究些什么,这些研究中有哪些未来可能转化为我们可以用的技术和产品?11月14日,中科院计算技术研究所举办了第二届学术大会暨中科院计算机系统结构重点实验室开放日,记者走进了中科院计算... 2008年12月03日 未分类 暂无评论 喜欢 0 阅读 1 次 阅读全文
站长访谈故事:Hightman马明练与他的彩字秀 核心提示:一个站长最值得骄傲的事情就是实现网站的价值和人身价值,在实现价值的同时也能更好的为用户提供服务,体现用户的使用价值。 编序:一直以来想做一个在线图片生成的网站站长或者技术牛人的访谈,因为近期这样的网站突然火热起来了。很多站长都在询问其中的价值挖掘问题,本期站长访谈特别邀请彩字秀www.czxiu.com的站长分享图片处理网站的那些事。hightman原名马明练,职业网络开发工程师,... 2008年12月03日 业界资讯 暂无评论 喜欢 0 阅读 1 次 阅读全文
编写简单的中文分词程序 - 几个月之前,在网上找到了一个中文词库素材(几百K),当时便想写一个分词程序了.我对汉语分词没有什么研究,也就凭自己臆想而写.若有相关方面专家,还请多给意见. 一、词库 词库大概有5万多词语(google能搜到,类似的词库都能用),我摘要如下: 地区 82 重要 81 新华社 80 技术 80 会议 80 自己 79 干部 78 职工 78 群众 77 没有 77 今天 76 同志 76 部门 75 加强 75 ... 2008年12月03日 未分类 暂无评论 喜欢 0 阅读 1 次 阅读全文
代码结构问题进行的反思 根源: 开发架构:面向对象还是过程? 发展过程 我建议采用面向对象的架构方法部署新系统的编码结构,在向同事演示过后,他觉得写起来很麻烦,要多写很多代码,并不能提高编码效率,而后继续使用函数编写。 反思 架构人员的任务是:构建适合团队开发能里的架构,使团队高质量的开发项目。 对于编写效率来讲,oo强调代码的可读性以及职责明确,这一切都是为了使程序员之间更好的协同工作。而面向过程对于程... 2008年12月03日 工作随笔 暂无评论 喜欢 0 阅读 1 次 阅读全文
中文分词技术的调研 中文分词的背景 l 什么是中文分词 众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。对于英文句子,计算机可以很简单通过空格知道“student”是一个单词,但是对于中文句子而言,不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成... 2008年12月03日 学习随笔 暂无评论 喜欢 0 阅读 1 次 阅读全文
想起同学的一首诗词 年幼促成愁 伴身多少秋 叹生涯 恨把名求 (后面有些忘了找机会补上 肯定不是恰同学少年 挥斥方遒 ;:) 2008年12月03日 个人日记 暂无评论 喜欢 0 阅读 1 次 阅读全文
如何DIY你的标注语料库 如果你想写分词器,那么就需要有标注语料库进行训练,以下是 成 彦 的一些方法: 语料库标注或加工就是对语料(书面语和口语)进行不同层次的语言学分析,并添加相应的“显性”解释性语言学信息的过程。 语料库很关键,只有经过不周层次加工的“熟”语料才可真正用于自然语言处理系统的训练,测试。 目前我在网上找到的标注语料库是北京大学计算语言学研究所免费提供的“PFR人民日报标注语料1.0”。 PFR人民日报... 2008年12月03日 未分类 暂无评论 喜欢 0 阅读 1 次 阅读全文
分词方法三:反向最大匹配分词(BMM) BMM方法和FMM过程类似,不同点仅在于BMM是从文本的末尾开始处理,每次匹配不成功时去掉的是最前面的一个字。BMM方法的精度要高一些,其错误率是1/245 2008年12月03日 学习随笔 暂无评论 喜欢 0 阅读 1 次 阅读全文
中文分词的重要概念:条件随机场(Conditional Random Fields, CRFs) 一般序列分类模型常常采用隐马模型(HMM), 像基于类的中文分词, 但隐马 模型中存在两个假设: 输出独立性假设和马尔可夫性假设. 其中, 输出独立性假设要求序列数据严格相互独立才能保证推导的正确性, 而事实上大多数序列数据不能 被表示成一系列独立事件. 而条件随机场则使用一种概率图模型, 具有表达长距离依赖性和交叠性特征的能力, 能够较好地解决标注(分类)偏置等问题的优点, 而且所有特征可以进行全局归一化, 能够求得全局的最优解. 2008年12月03日 学习随笔 暂无评论 喜欢 0 阅读 1 次 阅读全文