Scrapy爬虫的启动与暂停
时间:2021-07-12
本文章向大家介绍Scrapy爬虫的启动与暂停,主要包括Scrapy爬虫的启动与暂停使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
当我们使用Scrapy进行网站爬取的时候,无法避免的会出现爬虫暂停的情况,不用担心,Scrapy已经提供了这个功能。
在启动爬虫命令的时候我们使用参数 -s (set的意思),这会将本次爬虫运行的相关信息记录在001文件夹中,在爬虫暂停重新启动后会读取信息继续进行网站的爬取。所以一次完整的爬虫无论暂停几次,都只会使用同一个文件夹夹记录,如果记录文件不同或制定错误,都将会重头进行爬取。
scrapy crawl spider lagou -s JOBDIR=job_info/001
当然,我们也可以在settings.py 指定目录
DIR="job_info/001"
我们也可以在自定义到我们个人爬虫的个性化配置里。
custom_settings = { "COOKIES_ENABLED": True "DIR": "job_info/001" }
注意,此时我们无法在PYCharm中进行调试了,因为scrapy捕捉暂停信号为“Ctrl+C”(且只能操作一次,两次爬虫会被强制终止),所以我们最好使用CMD来进行操作。
原文地址:https://www.cnblogs.com/hehahahepython/p/15002133.html
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- java-单链表反转解法及分析
- JAVA-判断两个单链表是否相交并求交点
- 删除排序数组中重复元素的方法
- zookeeper-3.4.10伪集群模式搭建及简单操作
- 04 Confluent_Kafka权威指南 第四章: kafka消费者:从kafka读取数据
- JAVA中的单例模式分析(doublecheck和枚举实现)
- 有关JAVA自动装箱-拆箱的分析
- 10 Confluent_Kafka权威指南 第十章:监控kafka
- 解决elasticsearch“Too many open files in system”问题
- elk基于jolokia监控springboot应用jvm方案
- elasticsearch集群更换节点操作
- 对storm1.2.3并行度的理解
- RabbitMQ集群搭建过程
- java中的reference(一): GC与4种基本的Reference(强软弱虚)
- java中的reference(三): FinalReference和Finalizer的源码分析