中文 | 浩然东方

插件开发全攻略（目录）

Charles翻译插件开发全攻略（目录）值得看一看，学一学，试一试

2009年01月14日 WordPress 暂无评论喜欢 0 阅读 1 次阅读全文

互联网元数据采集系统

互联网元数据采集系统[专业版]提供我们所知的最强大、灵活、最经济性的互联网元数据结构化信息）模板方式采集系统。是高端垂直搜索引擎技术的必要补充、是低端垂直搜索的必备利器！可解决相对集中的数据源的信息的复杂采集。处理能力普通PC服务器：1~5MB/秒数据流；可采集数十～数千个信息源网站平台 windows .net C# 适用范围对互联网数...

2008年12月24日未分类暂无评论喜欢 0 阅读 1 次阅读全文

中文分词一直是一个看起来似乎比较神秘的东西。记得java中的lucene好像自带了两个分词器。一个是按汉字分，就是一个字分成一个词。比如”我要到饭馆吃饭“，就被分成”我/要/到/饭/馆/吃/饭”.别一个是相邻的两个字分成一个词，分出来的结果是”我要/要到/到饭/饭馆/馆吃/吃饭”.然而这两种虽说在做搜索时建索引什么的操作时也是相当有用的，但是毕竟是一种权宜之计，咱不能一直停留在这个水平上。下面是来自Rl...

2008年12月24日未分类暂无评论喜欢 0 阅读 1 次阅读全文

PHP生成的XML以FLASH获取为乱码解决方法

PHP生成的XML，以FLASH获取却为乱码经过探索最终解决。记录之，顺便也记录了通用解决方案。如果你也遇到XML<->FLASH乱码情况，可以速查： 1．确信XML绝对没有问题的情况：首先，flash读取xml出现乱码涉及到System.useCodepage这个静态属性属性官方描述：“A Boolean value that tells Flash Player which code page to use to interpret external text files.”默认为false。倘若...

2008年12月23日 PHP 暂无评论喜欢 0 阅读 1 次阅读全文

Google已可通过OCR检索扫描PDF文档

<tags>google, ocr, pdf</tags> 过去，电子扫描文档很少被纳入搜索结果中，因为受技术限制，我们对其中的具体内容不是很有把握，顶多只能针对文档标题进行检索。 Google产品经理Evin Levey宣布，这一切在今天都不同了，因为Google已经可以对任何Adobe PDF格式的扫描文档进行OCR检索，将其转换成文字并纳入索引，在用户搜索的时候就能显示在结果里了，很多重要的文件也可以轻松找到了。 Googl...

2008年12月22日未分类暂无评论喜欢 0 阅读 1 次阅读全文

基于统计的无词典分词方法

通过分析词的结合模式, 提出无词典分词模型, 并对该模型进行实验测试。测试结果表明, 无词典分词模型能够满足快速分词的要求。

2008年12月17日资源分享暂无评论喜欢 0 阅读 1 次阅读全文

什么是中文分词？

众所周知，英文是以词为单位的，词和词之间是靠空格隔开，而中文是以字为单位，句子中所有的字连起来才能描述一个意思。例如，英文句子I am a student，用中文则为：“我是一个学生”。计算机可以很简单通过空格知道student是一个单词，但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词，就是中文分词，有些人也称为切词。我...

2008年12月17日未分类暂无评论喜欢 0 阅读 1 次阅读全文

WordPress SEO 中文插件设计细节

WordPress SEO 中文插件设计细节 June 29th, 2008 at 06:54pm huzi 本文由好友 askie 撰写。 WordPress SEO 中文插件这款插件是在 Simple Tags 插件得到设计灵感的。Simple Tags 插件不用我介绍吧，功能相当强悍，但是这款插件对中文来说有个软肋，就是无法实现中文分词，也就是说没有办法从中文文章中提取关键词。关于中文分词大家可以看看在《WordPress SEO 中文插件》中的介绍。看到了这个问题，我想...

2008年12月16日 WordPress 暂无评论喜欢 0 阅读 1 次阅读全文

MySQL中文模糊检索问题的解决方法

　　在 MySQL 下，在进行中文模糊检索时，经常会返回一些与之不相关的　　记录，如查找 "%a%" 时，返回的可能有中文字符，却没有 a 字符存在。　　本人以前也曾遇到过类似问题，经详细阅读 MySQL 的 Manual ，发现可以　　有一种方法很方便的解决并得到满意的结果。　　例子：　　·希望通过“标题”对新闻库进行检索，关键字可能包含是中英文，如　　下 SQL 语句：　　select id,title,name from ache...

2008年11月29日未分类暂无评论喜欢 0 阅读 1 次阅读全文

通过MySQL内置全文检索实现中文的相关检索

原文作者: walker 整理日期: 2007-02-08 关键字：MySQL 全文检索全文索引中文分词二元分词区位码相似度 /** * @author : walkerlee * @copyright : www.neatstudio.com | www.walkerlee.net */ 转载请保留以上信息。注：本文使用的MySQL版本为：MySQL 4.0.x 在MySQL4中，是已经开始支持全文检索（索引）的了。但是只是对英文支持全文检索。由于英文在书写上的特殊性，使得分词算法相对中文来说，简...

2008年11月28日未分类暂无评论喜欢 0 阅读 1 次阅读全文

浩然东方

浩然东方关注微信、android、IOs、app 致力于服务端数据优化、分析、智能