Scrapy爬虫的启动与暂停

时间:2021-07-12
本文章向大家介绍Scrapy爬虫的启动与暂停,主要包括Scrapy爬虫的启动与暂停使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

当我们使用Scrapy进行网站爬取的时候,无法避免的会出现爬虫暂停的情况,不用担心,Scrapy已经提供了这个功能。

在启动爬虫命令的时候我们使用参数 -s (set的意思),这会将本次爬虫运行的相关信息记录在001文件夹中,在爬虫暂停重新启动后会读取信息继续进行网站的爬取。所以一次完整的爬虫无论暂停几次,都只会使用同一个文件夹夹记录,如果记录文件不同或制定错误,都将会重头进行爬取。

scrapy crawl spider lagou -s JOBDIR=job_info/001

当然,我们也可以在settings.py 指定目录

DIR="job_info/001"

我们也可以在自定义到我们个人爬虫的个性化配置里。

    custom_settings = {
        "COOKIES_ENABLED": True
        "DIR": "job_info/001"  
    }

注意,此时我们无法在PYCharm中进行调试了,因为scrapy捕捉暂停信号为“Ctrl+C”(且只能操作一次,两次爬虫会被强制终止),所以我们最好使用CMD来进行操作。

原文地址:https://www.cnblogs.com/hehahahepython/p/15002133.html