如何抓取网页如何抓取网页数据抓取网页数据原理如下:如果把互联网比作一张蜘蛛网,爬虫就是在蜘蛛网上爬行的蜘蛛,一个网络节点代表网页。用爬虫爬网页得到的源代码和浏览器里看到的不一样,用的是什么技术?有可能网页使用了动态的网页技术,比如AJAX、JavaScript等,使得浏览器中看到的网页的内容与爬虫抓取的网页的源代码不同。1、要爬网页,选哪个爬虫好?Nutch?Heritrixheritrix比nutch强。Nutch适合搜索引擎,但是有抓取的功能。另一方面,Heritrix擅长爬行。用Lucene进行索引