A-A+

Heritrix使用摘要

2008年11月13日学习随笔暂无评论阅读 1 次

Heritrix使用摘要

1. 在Eclipse下新建立一个Java Project（名字随便起），把提供的heritrixSpider下的内容全部拷贝到刚才建的工程的Eclipse目录下；
2. 在Eclipse工程目录下，找到org.archive.crawler包下的Heritrix.java文件，选择该文件，点右键->Run As->Java Application，运行程序，当Eclipse Console里出现“Heritrix version: 1.10.0”信息时，表示heritrix已经正常启动；
3. 打开浏览器（Firefox或IE），输入http://127.0.0.1:8888，会显示一个登陆框，输入用户名：admin和密码：akalius；
4. 进入主页面后，选择“Jobs”->“With defaults”后，Name of new job和Description随便写，Seeds下输入要作为起点的web url（可以填写多个url，每行一个url，无需任何分隔符），Seeds的选择很关键，好的Seeds可以使spider过滤掉无关的页面；
5. 填好Seeds后，选择“Settings”，修改user-agent为Mozilla/5.0 (compatible; heritrix/1.10.0 +http://192.168.208.130)（192.168.208.130为自己机子的IP地址），修改from为test@163.com（Email随便写，格式对就行）；
6. 选择“Modules”，Select Crawl Scope选择“BroadScope”，Select URI Frontier选择BdbFrontier，Select Pre Processors选择“Preselector”和“PreconditionEnforcer”，Select Fetchers选择“FetchDNS”和“FetchHTTP”，Select Extractors选择“ExtractorHTTP”、“ExtractorHTML”，Select Writers选择“MirrorWriterProcessor”，Post Processors选择“CrawlStateUpdater”、“LinksScoper”和“FrontierScheduler”（最好自己写一个FrontierScheduler来替换heritrix自己的FrontierScheduler，因为heritrix的FrontierScheduler没有对网页进行相应的过滤，这样就会爬下所有的页面，自己写个FrontierScheduler可以采取一定的过滤机制来获得相对少且与主题相关的页面）；
7. 设置完“Modules”后选择“Submit job”，进入主页面，选择“Console”，点击“Start”开始爬网页；
8. 正常开始爬后，会显示一个进度条和相关的性能数据，并且在heritrix的Eclipse工程目录下的jobs目录下会自动生成一个文件夹，文件夹名为“创建的job名-创建的时间”，该文件夹的mirror目录就是heritrix爬到内容所在的目录。

浩然东方

浩然东方关注微信、android、IOs、app 致力于服务端数据优化、分析、智能

Heritrix使用摘要

Heritrix使用摘要

给我留言取消回复