版权声明:本文为博主原创文章未经博主允许不得转载。 更多博文请浏览:/ /github_/article/details/
上面这个测试说明了,如果你将你的爬虫程序的 代理用户 设置为: BadCrawler
的话因为你访问的目標站点已经警告你了:“我们禁止用户代理为BadCrawler
的用户访问本站点里面的所有网站”。所以我们用 robot.txt解除限制parser
在can_fetch()
函数前面的一堆都是初始化,can_fetch()
函数是在程序里面使用它的功能:确定指定的用户代理是否允许访问网页。