Scrapy spider 主要方法

Spider 类是 Scrapy 中的主要核心类，它定义了爬取网站的规则。 Spider 是循环爬取，它的而爬取步骤是：

start_requests 方法用 start_urls 中的 URL 初始化 Request ，然后将请求返回结果 Response 作为参数传递给 parse 方法；
parse 是回调函数，它分析传递过来的 Response 的内容，从中提取出 Item 对象、 dict 、 Request 或者包含三者的可迭代数据，将 Request 传递给 Scrapy 继续进行下一轮的循环；
parse 使用 selector 分析 Response 提取向所需的数据。

所有的爬虫类都必须继承自 Spider 类。他提供了 start_requests 方法的默认实现和读取并请求 start_urls，然后根据返回结果调用 pase 方法。他的常用属性如下：

项目启动时会调用 start_requests 方法，然后从 start_urls 列表中依次获取 url 生成 Request ，然后调用回调方法 parse 。这个方法只被调用一次所以我们可以将它写为生成器。

parse 是 Scrapy 默认的回调方法，她负责处理 Response 并返回抓取的数据，获取返回需要跟进的 URL。

负责提取页面内容，Selector 是一套构建在 lxml 之上的选择器机制，主要通过 xpath 和 css 来提取数据。常用的方法如下：

tio：选择器可以嵌套使用，例如：

image = response.css("#image")
image_new = image.css("[href*='baidu.com']").extract()

上通过简单的描述讲解了 spider 的主要方法，这些方法是我们在开发中经常用到的。