机器学习和生物信息学实验室联盟

标题: html网站整站抓取工具-FreshWebSuctions [打印本页]

作者: xmubingo    时间: 2012-3-20 19:41
标题: html网站整站抓取工具-FreshWebSuctions
本帖最后由 xmubingo 于 2012-3-20 19:49 编辑

有时候我们在看人家网站的API或者说明文件,这些文件都是html组成的。

比如:http://59.77.16.75/documentation/php/index.html

很想把它们都copy下来放到自己的电脑上,因为怕对方网站哪天挂了就访问不了了。

需要一个整站抓取工具。

很像爬虫工具。全部宕下来。

FreshWebSuctions可以帮助你!

[attach]580[/attach]

最重要的一个设置是level limit ,用来设置你要深入的层数。

[attach]581[/attach]


另外再推荐一个软件WebRipper这个是抓取html页面中的特定资源,比如图片,链接文件等等
[attach]582[/attach]




作者: chenwq    时间: 2012-3-20 20:22
哇,可以做镜像了!
作者: zouquan    时间: 2012-3-21 10:48
very gooooooooood




欢迎光临 机器学习和生物信息学实验室联盟 (http://123.57.240.48/) Powered by Discuz! X3.2