关于如何降低网络爬虫速度的问题

关于如何降低网络爬虫速度的问题
YAHOO 的解决办法 http://misc.yahoo.com.cn/help.html#q10 robots.txt User-agent: Slurp Crawl-delay: 20 解释 由于增加了访问过滤,那么就需要告诉网络爬虫爬行的速度不要太快,还好这个问题比较好解决,在robots.txt中增加: Robot-version: 2.0 Crawl-delay: 10 Request-rate: 60/1m Visit-time: 0000-0800 由于这个还没有完全的标准,两种都用了,Crawl-delay是每秒访问的网页数,而Request-rate是页...

开源Web爬虫和搜索引擎:PhpDig

开源Web爬虫和搜索引擎:PhpDig
  phpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更强、层次更深的个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。   http://www.phpdig.net/     有需要...
Copyright © 浩然东方 保留所有权利.   Theme  Ality 07032740

用户登录