A-A+
Heritrix使用摘要
1. 在Eclipse下新建立一个Java Project(名字随便起),把提供的heritrixSpider下的内容全部拷贝到刚才建的工程的Eclipse目录下;
2. 在Eclipse工程目录下,找到org.archive.crawler包下的Heritrix.java文件,选择该文件,点右键->Run As->Java Application,运行程序,当Eclipse Console里出现“Heritrix version: 1.10.0”信息时,表示heritrix已经正常启动;
3. 打开浏览器(Firefox或IE),输入http://127.0.0.1:8888,会显示一个登陆框,输入用户名:admin和密码:akalius;
4. 进入主页面后,选择“Jobs”->“With defaults”后,Name of new job和Description随便写,Seeds下输入要作为起点的web url(可以填写多个url,每行一个url,无需任何分隔符),Seeds的选择很关键,好的Seeds可以使spider过滤掉无关的页面;
5. 填好Seeds后,选择“Settings”,修改user-agent为Mozilla/5.0 (compatible; heritrix/1.10.0 +http://192.168.208.130)(192.168.208.130为自己机子的IP地址),修改from为test@163.com(Email随便写,格式对就行);
6. 选择“Modules”,Select Crawl Scope选择“BroadScope”,Select URI Frontier选择BdbFrontier,Select Pre Processors选择“Preselector”和“PreconditionEnforcer”,Select Fetchers选择“FetchDNS”和“FetchHTTP”,Select Extractors选择“ExtractorHTTP”、“ExtractorHTML”,Select Writers选择“MirrorWriterProcessor”,Post Processors选择“CrawlStateUpdater”、“LinksScoper”和“FrontierScheduler”(最好自己写一个FrontierScheduler来替换heritrix自己的FrontierScheduler,因为heritrix的FrontierScheduler没有对网页进行相应的过滤,这样就会爬下所有的页面,自己写个FrontierScheduler可以采取一定的过滤机制来获得相对少且与主题相关的页面);
7. 设置完“Modules”后选择“Submit job”,进入主页面,选择“Console”,点击“Start”开始爬网页;
8. 正常开始爬后,会显示一个进度条和相关的性能数据,并且在heritrix的Eclipse工程目录下的jobs目录下会自动生成一个文件夹,文件夹名为“创建的job名-创建的时间”,该文件夹的mirror目录就是heritrix爬到内容所在的目录。
2. 在Eclipse工程目录下,找到org.archive.crawler包下的Heritrix.java文件,选择该文件,点右键->Run As->Java Application,运行程序,当Eclipse Console里出现“Heritrix version: 1.10.0”信息时,表示heritrix已经正常启动;
3. 打开浏览器(Firefox或IE),输入http://127.0.0.1:8888,会显示一个登陆框,输入用户名:admin和密码:akalius;
4. 进入主页面后,选择“Jobs”->“With defaults”后,Name of new job和Description随便写,Seeds下输入要作为起点的web url(可以填写多个url,每行一个url,无需任何分隔符),Seeds的选择很关键,好的Seeds可以使spider过滤掉无关的页面;
5. 填好Seeds后,选择“Settings”,修改user-agent为Mozilla/5.0 (compatible; heritrix/1.10.0 +http://192.168.208.130)(192.168.208.130为自己机子的IP地址),修改from为test@163.com(Email随便写,格式对就行);
6. 选择“Modules”,Select Crawl Scope选择“BroadScope”,Select URI Frontier选择BdbFrontier,Select Pre Processors选择“Preselector”和“PreconditionEnforcer”,Select Fetchers选择“FetchDNS”和“FetchHTTP”,Select Extractors选择“ExtractorHTTP”、“ExtractorHTML”,Select Writers选择“MirrorWriterProcessor”,Post Processors选择“CrawlStateUpdater”、“LinksScoper”和“FrontierScheduler”(最好自己写一个FrontierScheduler来替换heritrix自己的FrontierScheduler,因为heritrix的FrontierScheduler没有对网页进行相应的过滤,这样就会爬下所有的页面,自己写个FrontierScheduler可以采取一定的过滤机制来获得相对少且与主题相关的页面);
7. 设置完“Modules”后选择“Submit job”,进入主页面,选择“Console”,点击“Start”开始爬网页;
8. 正常开始爬后,会显示一个进度条和相关的性能数据,并且在heritrix的Eclipse工程目录下的jobs目录下会自动生成一个文件夹,文件夹名为“创建的job名-创建的时间”,该文件夹的mirror目录就是heritrix爬到内容所在的目录。