Scrapy库的安装与使用
安装部分
命令行执行:
安装: pip install scrapy
安装后小测: 执行scrapy -h
Scrapy爬虫框架结构:
爬虫框架:爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合。
Scrapy:5+2结构
5个模块
Spiders 用户编写(配置) 解析Downloader返回的响应,产生爬取项,产生额外的爬取请求。
Item pipelines 用户编写(配置) 以流水线来处理Spider产生的爬取项,可能的操作包括:清理、检验和查重爬取项中的HTML数据、将数据存储到数据库。
Engine 已有实现 控制数据流,触发事件,不需要用户修改
Downloader 已有实现 根据请求来下载网页,不需要用户修改
Scheduler 已有实现 对所有请求进行调度,不需要用户修改
2个中间件
Downloader Middleware: 实施Engine、Scheduler和Downloader之间进行用户可配置的控制。修改、丢弃、新增请求或响应。用户可以编写配置代码,也可以不更改。
Spider Middleware:目的:对请求和爬取项的再处理。功能:修改、丢弃、新增请求或爬取项。用户可以编写配置代码。
Requests vs. Scrapy
相同点:
两者都可以进行页面请求和爬取,Python爬虫的两个重要技术路线。
两者可用性都好,文档丰富,入门简单。
两者都没有处理js、提交表单、应对验证码等功能(可扩展)。
不同点:
非常小的需求,requests
不太小的请求,Scrapy
定制程度很高的需求(不考虑规模),自搭框架,requests>Scrapy。
Scrapy命令行
scrapy -h
Scrapy命令行格式:
scrapy <commad> [options][args]
Scrapy常用命令:
原文地址:https://www.cnblogs.com/wangziyan/p/11042286.html
- 在Windows 7/Server 2008 R2上部署asp.net 1.1程序
- CSS Auto Reload:解放F5 键,自动刷新浏览器的前端利器(Chrome 扩展)
- zepto 基础知识(3)
- 1.[Andriod]之Andriod布局 VS WinPhone布局
- WordPress自定义url 中的“author” 别名
- ASP.NET 4 AppFabric 输出缓存提供程序
- WordPress 中禁止编辑“已发布”的文章
- Windows Server 2008 R2 网络负载平衡 (NLB)资料汇总
- 0.[Andriod]之从零安装配置Android Studio并编写第一个Android App
- WordPress 后台编辑文章页面添加自定义提示文字
- 使用json 和jQuery制作级联dropdownlist
- 在64位Windows 7/2008操作系统上部署32位的Web应用程序错误
- 云计算浪潮
- 2.[Andriod]Andriod Studio结合Visual Studio Emulator for Android调试Android App
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法