scrapy抓取下载360图片
时间:2022-06-26
本文章向大家介绍scrapy抓取下载360图片,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
需求分析
假设我们要做一个有关美食的网站,需要从360图片库采集一批美食图片,不仅是采集图片的链接,而是将图片下载到本地,引用第三方图片链接总是不可靠的,哪天设置了防盗链,又得重新忙活,还是要放在自己的图床才踏实
页面分析
进入360图片库,以美食分类为范例,url为:https://image.so.com/z?ch=food
下拉浏览器滚动条,在 chrome 的开发者模式中,可捕获到获取数据的请求:
获取图片数据的请求
从这些 url 的请求格式,可得出其规律为:https://image.so.com/zjl?ch=food&sn=数量&listtype=new&temp=1
每页的数量为 30 ,url 中的数量取值为 (页数-1)*30
因此,第一页的url便是:https://image.so.com/zjl?ch=food&sn=0&listtype=new&temp=1
直接访问该url,可得到以下json数据
json结果解析
创建项目
# 创建项目
$ scrapy startproject image_so
$ cd image_so
# 生成爬虫
$ scrapy genspider images image.so.com
Created spider 'images' using template 'basic' in module:
image_so.spiders.images
修改 settings.py
配置文件:
# 不遵循 robots 协议,如果遵循,绝大多数网站都不能抓取
ROBOTSTXT_OBEY = False
ITEM_PIPELINES = {
# 启用图片下载管道
'scrapy.pipelines.images.ImagesPipeline': 1,
}
# 指定图片下载目录,会自动创建此目录
IMAGES_STORE = 'download_images'
编写爬虫代码
- 微信年度重磅“小游戏”上线,罗胖一度退出的小程序正在逆袭
- 谈谈WCF中的Data Contract(2):WCF Data Contract对Generic的支持
- Android注解学习(1)
- [WCF权限控制]ASP.NET Roles授权[上篇]
- [WCF权限控制]ASP.NET Roles授权[下篇]
- 如何解决分布式系统中的跨时区问题[实例篇]
- Visual Studio对程序集签名时一个很不好用的地方
- 一个关于解决序列化问题的编程技巧
- [WCF权限控制]从两个重要的概念谈起:Identity与Principal[上篇]
- 从数据到代码——通过代码生成机制实现强类型编程[下篇]
- 谈谈你最熟悉的System.DateTime[下篇]
- 如何解决EnterLib异常处理框架最大的局限——基于异常"类型"的异常处理策略
- [WCF权限控制]从两个重要的概念谈起:Identity与Principal[下篇]
- 收藏!6道常见hadoop面试题及答案解析
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- g2o、Eigen、Mat矩阵类型转换
- 相见恨晚!OLAP数仓基础入门大全
- Activiti7 流程变量(UEL-Value方式)
- 给IE9及其以下等不支持classList属性的浏览器,添加classList属性
- Docker使用手册 嵌入式Linux环境搭建
- Activiti7 流程部署
- Activiti7 启动流程实例
- linux文本处理工具及正则表达式
- linux目录结构及文件管理
- centos7-httpd虚拟主机
- k8s1.13.0二进制部署-node节点(四)
- k8s1.13.0二进制部署-flannel网络(二)
- k8s1.13.0二进制部署-master节点(三)
- k8s1.13.0二进制部署-ETCD集群(一)
- docker-企业级镜像仓库harbor