scrapy框架使用-crawlspider类
时间:2021-07-25
本文章向大家介绍scrapy框架使用-crawlspider类,主要包括scrapy框架使用-crawlspider类使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
###
实际上,在一个列表页,上面详情页的地址,还有翻页的地址都是能获取到的,
我们是不是可以单独写一个函数,单独提取详情页的url,单独提取翻页的url?
crawlspider就是做的这个事情,
####
###
这就是创建好的爬虫,
首先继承的父类就是不一样的,
多了一个rules,这个就是定义规则的地方,
第一个参数就是正则表达式,
第二个callback 不是一定要的,可以没有这个参数,因为提取出的url,不需要处理
第三个参数,在提取url的下一个页面是否需要再次按照前面的规则继续提取,
parse函数不见了,这个地方不能定义parse函数,这个函数有特殊的用处,
####
案例:
###
第一个rule,是抓取详情页的标题和发布时间,所以需要callback,但是不需要在详情页继续抓取了,所以不需要fallow,
第二个rule,是为了抓取翻页,因为不需要处理,所以不需要callback,但是需要继续在第二页提取页码,所以需要fallow
####
代码很简单,但是思考会比较多,
这个crawlspider,也是可以主动构造请求的,
###
这个提取出的url地址,并不是完整的,但是crawlspider,自动帮我们补全了,
####
####
原文地址:https://www.cnblogs.com/andy0816/p/15058985.html
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 如何将Java工程导出成可以执行的jar
- 利用JSP内置的Application对象实现的网站引用计数
- JSP导入XML不成功的一个原因
- 生产环境日志清理脚本
- fastadmin插件开发之插件目录
- EasySwoole之定时任务面板
- Gradle构建springBoot项目
- python菜鸟教程 | if elif else 判断
- 图解面试题:人均付费如何分析?
- 面试官拿System.out.println()考了我半个小时?我傻了
- 为何总给外卖打差评?我们来数据分析一下!
- 解决Linux html生成图片中文乱码
- 前端必知必会-BFC案例剖析
- 分析Guava并发工具类Futures
- kafka高可用集群搭建