Python爬虫案例教学演示:爬取“绝对领域”二次元小姐姐图片
时间:2021-07-21
本文章向大家介绍Python爬虫案例教学演示:爬取“绝对领域”二次元小姐姐图片,主要包括Python爬虫案例教学演示:爬取“绝对领域”二次元小姐姐图片使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
Python爬虫、数据分析、网站开发等案例教程视频免费在线观看
https://space.bilibili.com/523606542
前言
今天带大家采集一个二次元图片网站, 里面漂亮的小姐姐层出不穷,图片的数据量也是比较大的, 来一睹为快吧! !
开发环境介绍:
python 3.6
pycharm
requests
parsel
os
爬虫案例数据采集一般步骤:
-
找数据对应的链接地址
-
代码发送地址的请求
-
数据解析<解析我们要的数据>
-
数据保存(本地)
1. 首先第一步,找到对应的链接地址
因为是静态网页,所以数据很容易就找到了
# url编码: 中文在请求和响应的时候转码, http协议默认不支持中文, 由 % 字母 数字 request_address = f'https://www.jdlingyu.com/tag/%e5%b0%91%e5%a5%b3/page/{page}' # 代表浏览器身份标识 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
2. 代码发送地址的请求
response = requests.get(url=request_address, headers=headers) html_data = response.text # 字符串 -- 正则 print(html_data)
请求一下,看看对不对
3. 数据解析<解析我们要的数据> html数据, xpath
selector = parsel.Selector(html_data) # 转换数据类型 lis = selector.xpath('//div[@id="post-list"]/ul/li') # 所有相册的标签 for li in lis: # 一个一个操作相册标签对象 pic_title = li.xpath('.//h2/a/text()').get() # 相册标题 pic_href = li.xpath('.//h2/a/@href').get() # 相册地址 print(pic_title, pic_href)
4. 保存数据
with open(f'img\\{pic_title}\\{pic_name}', mode='wb') as f: f.write(img_data) print('保存完成:', pic_name)
完整源码加Python学习交流群:1039649593找管理员免费获取
运行完整代码
原文地址:https://www.cnblogs.com/qshhl/p/15040082.html
- linux/scp命令报“bash: scp: command not found lost connection”错误的解决办法
- bat/cmd批处理连接SqlServer数据库查询脚本
- 一起用 HTML5 Canvas 做一个简单又骚气的粒子引擎
- 解决mstsc无法连接问题:由于没有远程桌面授权服务器可以提供许可证…
- Apache/Nginx伪静态规则匹配http://出现的问题与解决
- 微信文件微起底
- Go语言TCP Socket编程--1
- Go语言TCP Socket编程--2
- 服务器 数据库设计技巧--1
- CVE-2015-0235:Linux glibc高危漏洞的检测及修复方法
- zabbix监控在lnmp环境下编译安装小记
- 【重磅】百度开源分布式深度学习平台,挑战TensorFlow (教程)
- WordPress评论ajax动态加载,解决静态缓存下评论不更新问题
- WordPress显示访客UA信息:Show UserAgent纯代码轻度汉化版
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 我的 Chrome 版本不支持生成二维码,30 分钟怒怼了一个插件,附源码
- Android开发(第一行代码 第二版) 常见异常和解决办法(基于Android Studio)(二)
- 大厂Java项目如何进行Maven多模块管理
- Android开发 经验技巧汇总(基于Android Studio)(一)
- 老板逼我用 Git,本地指令介绍
- Python全栈(三)数据库优化之5.MySQL自关联、外键与Python操作MySQL
- Android开发 经验技巧汇总(基于Android Studio)(二)
- 表格滑动和图片链接,mdnice安排上了!
- 数据库编程 MySQL 常见异常和解决办法
- 持续集成利器,GitHub Actions
- 已拿Offer!百度、字节跳动等后台面经
- Python Networkx基础知识及使用总结
- AkShare-沪深港通持股-个股排行
- Python SQLite常见异常及解决办法
- IPC—进程间通信的基础概念