中文分词组件 KTDictSeg 1.2 版本发布及算法简介
作者:肖波
2007/6 南京
经过一周的工作,完成了KTDictSeg 1.2 版本的开发,该版本对词库进行的初步整理,并增加了如下功能
1、 增加了中文人名判断
2、 增加了正向匹配分词和反向匹配分词的选项
3、 增加了停用词过滤
4、 增加了词性标注
该版本对算法进行了改进
算法步骤如下
1) 预分词:预分词以 KTDictSeg 1.0 版本的算法为基础(参见 KTDictSeg 一种简...
JDOM读写XML文件示例
写文件:
import java.io.FileOutputStream;
import java.io.IOException;
import org.jdom.Document;
import org.jdom.Element;
import org.jdom.JDOMException;
import org.jdom.output.XMLOutputter;
public class JavaXML {
public void BuildXMLDoc() throws IOException, JDOMException {
// 创建根节点 list;
Element root = new Element("list");
// 根节点添加到文档中;
Document Doc = new Docu...
Psytopic分析:您的性格类型是“INTJ”(内向+直觉+思维+判断)
Psytopic分析:您的性格类型是“INTJ”(内向+直觉+思维+判断)
在实现自己的想法和达成自己的目标时有创新的想法和非凡的动力。能很快洞察到外界事物间的规律并形成长期的远景计划。一旦决定做一件事就会开始规划并直到完成为止。多疑、独立,对于自己和他人能力和表现的要 求都非常高。
INTJ型的人是完美主义者。他们强烈地要求个人自由和能力,同时在他们独创的思想中,不可动摇的信仰促使他们达到目标。 IN...
用于挖掘Web日志的数据仓库系统实现
运用数据仓库技术分析Web日志是目前Web使用挖掘的研究热点。本文从Web日志数据库设计、数据预处理和逻辑建模三个阶段阐述了Web日志数据仓库系统的整体实现。文章详细论述了将Web日志导入数据库中的方法,给出了具体的预处理过程,在此基础上实现了Web日志管理系统,最后提出Web日志数据仓库的逻辑模型。
1、引言
目前已经有很多学者和研究机构意识到网站日志数据巨大的潜在价值,试图通过对Web日志...
弟子规 dizigui
弟子规 dizigui
圣人训 shengrenxun
首孝弟 shouxiaodi
次谨信 cijinxin
泛爱众 fan'aizhong
而亲仁 erqinren
有余力 youyuli
则学文 zexuewen
入则孝 ruzexiao
父母呼 fumuhu
应勿缓 yingwuhuan
父母命 fumuming
行勿懒 xingwulan
父母教 fumujiao
须敬听 xujingting
父母责 fumuze
须顺承 xushuncheng
冬则温 don...
ASP|Google PageRank查询程序
说"查询程序"不如说是小偷.
因为整个查询过程就是偷http://so.5eo.com的数据.大家自己看代码
演示:http://l4ever.cn/tools/rank
程序代码
查询GOOGLE的PageRank
输入网址
来源: I?{简单.快乐..} http://l4ever.cn
地址:http://l4ever.cn/archives/239
使用apache和IIS,共用80端口的一个解决方案
将apache设为使用80端口,IIS使用其它端口,比如81,然后将apache作为IIS的代理。
在httpd.conf里面,取消下面四行的注释:
LoadModule proxy_module modules/mod_proxy.so
LoadModule proxy_connect_module modules/mod_proxy_connect.so
LoadModule proxy_http_module modules/mod_proxy_http.so
LoadModule proxy_ftp_module modules/mod_proxy_ftp.so
然后建立一个虚拟主机,将该域名的所有访问转向81...
客户数据采集的艰难之路
基于客户的CRM行业强调客户细分,需要大量的详细的完整的客户数据来进行支撑。企业要把客户摆在第一位,不仅仅要有企业统一的客户数据库,还要加强客户数据库的质量提升,另外还有一点要注意的是客户数据库的架构设计一定要符合企业的业务发展规划。
现在所有的管理热点似乎都是围绕客户,无论是客户需求导向的产品设计、讲究客户细分的市场营销、按订单生产的流程、体现客户价值的客户服务等等。当4C概念...
十大恶意域名80%IP地址指向浙江
《2008年上半年互联网挂马报告》报告显示,2008上半年十大恶意域名列表中,就有80%的恶意域名的IP地址是指向浙江省的。 2008年网页木马急骤增长,专业化、团队式的木马制造者,在攫取巨额非法利益的同时,给广大网友的正常工作学习带来了很大的不便、使网友们的利益受到了极大的损失。巨额利润、第三方应用程序漏洞、社会工程学成为2008年上半年的网马增长的主要条件。很多流行病毒(如:机器狗、磁...
XMLHTTP对象封装技术
Ajax技术的实现主要依赖于xmlhttprequest,但我们在调用其来进行异步数据的传输时,由于xmlhttp是个短线过程(处理事件完成后就销毁)如果不对该对象进行包装处理的话,就不得不在需要调用的地方重新构建xmlhttprequest,每次调用都要写一大段的代码,实在不是个好办法。好在现在很多开源的ajax框架都提供了对xmlhttp封装的方案。这里以ajaxtags自带的prototype-1.4.0.js为母版,来看看如何将xmlhtt...