Charles翻译插件开发全攻略(目录)值得看一看,学一学,试一试
互联网元数据采集系统
互联网元数据采集系统[专业版]提供我们所知的最强大、灵活、最经济性的互联网元数据结构化信息)模板方式采集系统。是高端垂直搜索引擎技术的必要补充、是低端垂直搜索的必备利器!可解决相对集中的数据源的信息的复杂采集。
处理能力 普通PC服务器:1~5MB/秒数据流;可采集数十~数千个信息源网站 平 台 windows .net C# 适用范围 对互联网数...
150行代码,搞定中文分词
中文分词一直是一个看起来似乎比较神秘的东西。记得java中的lucene好像自带了两个分词器。一个是按汉字分,就是一个字分成一个词。比如”我要到饭馆吃饭“,就被分成”我/要/到/饭/馆/吃/饭”.别一个是相邻的两个字分成一个词,分出来的结果是”我要/要到/到饭/饭馆/馆吃/吃饭”.然而这两种虽说在做搜索时建索引什么的操作时也是相当有用的,但是毕竟是一种权宜之计,咱不能一直停留在这个水平上。
下面是来自Rl...
PHP生成的XML以FLASH获取为乱码解决方法
PHP生成的XML,以FLASH获取却为乱码经过探索最终解决。记录之,顺便也记录了通用解决方案。如果你也遇到XML<->FLASH乱码情况,可以速查:
1.确信XML绝对没有问题的情况:
首先,flash读取xml出现乱码涉及到System.useCodepage这个静态属性属性 官方描述:“A Boolean value that tells Flash Player which code page to use to interpret external text files.”默认为false。 倘若...
Google已可通过OCR检索扫描PDF文档
<tags>google, ocr, pdf</tags>
过去,电子扫描文档很少被纳入搜索结果中,因为受技术限制,我们对其中的具体内容不是很有把握,顶多只能针对文档标题进行检索。
Google产品经理Evin Levey宣布,这一切在今天都不同了,因为Google已经可以对任何Adobe PDF格式的扫描文档进行OCR检索,将其转换成文字并纳入索引,在用户搜索的时候就能显示在结果里了,很多重要的文件也可以轻松找到了。
Googl...
基于统计的无词典分词方法
通过分析词的结合模式, 提出无词典分词模型, 并对该模型进行实验测试。测试结果表明, 无词典分词模型能够满足快速分词的要求。
什么是中文分词?
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我...
WordPress SEO 中文插件设计细节
WordPress SEO 中文插件设计细节
June 29th, 2008 at 06:54pm huzi
本文由好友 askie 撰写。
WordPress SEO 中文插件这款插件是在 Simple Tags 插件得到设计灵感的。Simple Tags 插件不用我介绍吧,功能相当强悍,但是这款插件对中文来说有个软肋,就是无法实现中文分词,也就是说没有办法从中文文章中提取关键词。关于中文分词大家可以看看在《WordPress SEO 中文插件》中的介绍。看到了这个问题,我想...
MySQL中文模糊检索问题的解决方法
在 MySQL 下,在进行中文模糊检索时,经常会返回一些与之不相关的
记录,如查找 "%a%" 时,返回的可能有中文字符,却没有 a 字符存在。
本人以前也曾遇到过类似问题,经详细阅读 MySQL 的 Manual ,发现可以
有一种方法很方便的解决并得到满意的结果。
例子:
·希望通过“标题”对新闻库进行检索,关键字可能包含是中英文,如
下 SQL 语句:
select id,title,name from ache...
通过MySQL内置全文检索实现中文的相关检索
原文作者: walker
整理日期: 2007-02-08
关键字:MySQL 全文检索 全文索引 中文分词 二元分词 区位码 相似度
/**
* @author : walkerlee
* @copyright : www.neatstudio.com | www.walkerlee.net
*/
转载请保留以上信息。
注:本文使用的MySQL版本为:MySQL 4.0.x
在MySQL4中,是已经开始支持全文检索(索引)的了。但是只是对英文支持全文检索。
由于英文在书写上的特殊性,使得分词算法相对中文来说,简...