互联网元数据采集系统[专业版]提供我们所知的最强大、灵活、最经济性的互联网元数据结构化信息)模板方式采集系统。是高端垂直搜索引擎技术的必要补充、是低端垂直搜索的必备利器!可解决相对集中的数据源的信息的复杂采集。
处理能力 普通PC服务器:1~5MB/秒数据流;可采集数十~数千个信息源网站 平 台 windows .net C# 适用范围 对互联网数...
网站站内搜索成盲点
最近的一项调查显示,有三分之二的搜索网站访问用户对搜索结果比较满意。如果考虑到7年前这一比例只有五分之二,这已经相当不简单了。但并非都是好消息,菜鸟级用户仍然受到信息过载的困扰,指定站点搜索仍然需要大量帮助。
对于与特定站点相关的任务,非熟练用户和熟练用户的成功率分别为59%和72%,而完成与整个Web相关任务的成功率分别为52%和67%。总体...
WEB网页结构化信息抽取技术介绍(网页库级)
WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索引擎和通用搜索引擎最大的差别。
如:比较购物搜索那就需要抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”
房产信息搜索那就应该抽取出那应该抽取出:类型、地域、地址、房型、面积、装修情况、租金、联系...
iPod touch 解决 Apple Remote 遥控器的问题
Remote 是一款适用于 iPhone 和 iPod touch 的软体应用程式,可让您控制 iTunes 资料库中以及 Apple TV 上的音讯与视讯播放。此文提供的资源解释了如何设定 Remote 以及疑难排解可能出现的问题。可以使用 iPhone 或 iPod touch 上的 App Store (以及您 Mac 或 PC 上的 iTunes) 从 iTunes Store 下载 Remote。如需有关 Remote 功能的资讯,请访问 www.apple.com.tw/itunes/remote/
社区全文检索引擎Hyper Estraier 学习笔记
今天突然想起霍炬曾告诉过我的一个日本人开发的全文检索引擎,于是找他问了,并下载下来看了看。打开电脑,学习Hyper Estrainer的文档,现在趁着没忘,做个笔记:
1.Hyper Estraier是一个用C语言开发的全文检索引擎,他是由一位日本人开发的.工程注册在sourceforge.net(http://hyperestraier.sourceforge.net).
2.Hyper的特性:
高速度,高稳定性,高可扩展性…(这可都是有原因的,不是瞎吹)
P2P架构(可译为...
150行代码,搞定中文分词
中文分词一直是一个看起来似乎比较神秘的东西。记得java中的lucene好像自带了两个分词器。一个是按汉字分,就是一个字分成一个词。比如”我要到饭馆吃饭“,就被分成”我/要/到/饭/馆/吃/饭”.别一个是相邻的两个字分成一个词,分出来的结果是”我要/要到/到饭/饭馆/馆吃/吃饭”.然而这两种虽说在做搜索时建索引什么的操作时也是相当有用的,但是毕竟是一种权宜之计,咱不能一直停留在这个水平上。
下面是来自Rl...
Tokyo Dystopia:基于Tokyo Cabinet的一个全文检索系统
项目主页:
http://tokyocabinet.sourceforge.net/dystopiadoc/
介绍:
Tokyo Dystopia 是一个全文检索系统,你可以搜索包含某短语的一系列记录,它的特性如下:
1.搜索的高效。
2.目标文标的高可靠性
3.N-gram 法的高召回率 (我加的,原文中没有:召回率是搜索引擎中对搜索结果能否全面的量化,召回率越高,搜索结果中包含相关文档越多,同时一般来说搜索结果越不精确,精确率越低。)
4.短语匹配,前缀匹...
Linux/Windows双系统并存方案:andLinux
andLinux介绍:
1:来自linuxtoy:是一个基于 Ubuntu 的自由软件项目,其目的是让你不需要使用诸如 VMWare 之类的虚拟机就可以在 Windows 下运行 Linux,而且最有意思的是,你可以同时使用 Windows 和 Linux 而不需要像使用虚拟机那样来回切换!
2:andLinux实际上是Colinux的一个包装。coLinux是一个修改过的linux内核,修改后成为windows下的一个应用程序。然后其它linux进程就在这个内核的管理下运...
常用于web spider中URL排重的Bloom Filter算法学习…
Bloom Filters是一种效率较高的内存索引算法,它本身具有矛盾性:一方面能快速测试目标成员是否存在,另一方面又不可避免的具有假命中率。如下文档仅供参考。
loom Filter 数据结构广泛地应用于网络技术中,它是由 Burton Bloom 在 1970 年提出来的。
它的优点是可以有效地节省空间,缺点是不能做到精确无误,不过这个看似很郁闷的缺点却可以使用调节参数的方法有效控制,
也可以通过不同的应用手段来避免...
文本挖掘,构造垃圾站
最近为ruby,ruby on rails的灵活和魔幻而着迷。爽。
上上周一个同事给我们介绍了自然语言处理的一些知识,觉得很不错。事实上虽然是雅虎公司的一名工程师,但是因为我不是搜索/邮箱/平台研发这些部门,基本上没有接触到比较深一点的东西,也许对于这些部门来说很简单的东西,对于我来说还是很难以理解的。
课后自己去找了些东西看了看,然后有这样一思路,可以用来构造一个垃圾站。
基本思路是:
1.首先...