Scrapy框架: 登录网站
时间:2022-07-25
本文章向大家介绍Scrapy框架: 登录网站,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
一、使用cookies登录网站
import scrapy
class LoginSpider(scrapy.Spider):
name = 'login'
allowed_domains = ['xxx.com']
start_urls = ['https://www.xxx.com/xx/']
cookies = ""
def start_requests(self):
for url in self.start_urls:
yield scrapy.Request(url, cookies=self.cookies, callback=self.parse)
def parse(self, response):
with open("01login.html", "wb") as f:
f.write(response.body)
二、发送post请求登录, 要手动解析网页获取登录参数
import scrapy
class LoginSpider(scrapy.Spider):
name='login_code'
allowed_domains = ['xxx.com']
#1. 登录页面
start_urls = ['https://www.xxx.com/login/']
def parse(self, response):
#2. 代码登录
login_url='https://www.xxx.com/login'
formdata={
"username":"xxx",
"pwd":"xxx",
"formhash":response.xpath("//input[@id='formhash']/@value").extract_first(),
"backurl":response.xpath("//input[@id='backurl']/@value").extract_first()
}
#3. 发送登录请求post
yield scrapy.FormRequest(login_url, formdata=formdata, callback=self.parse_login)
def parse_login(self, response):
#4.访问目标页面
member_url="https://www.xxx.com/member"
yield scrapy.Request(member_url, callback=self.parse_member)
def parse_member(self, response):
with open("02login.html",'wb') as f:
f.write(response.body)
三、发送post请求登录, 自动解析网页获取登录参数
import scrapy
class LoginSpider(scrapy.Spider):
name='login_code2'
allowed_domains = ['xxx.com']
#1. 登录页面
start_urls = ['https://www.xxx.com/login/']
def parse(self, response):
#2. 代码登录
login_url='https://www.xxx.com/login'
formdata={
"username":"xxx",
"pwd":"xxx"
}
#3. 发送登录请求post
yield scrapy.FormRequest.from_response(
response,
formxpath="//*[@id='login_pc']",
formdata=formdata,
method="POST", #覆盖之前的get请求
callback=self.parse_login
)
def parse_login(self, response):
#4.访问目标页面
member_url="https://www.xxx.com/member"
yield scrapy.Request(member_url, callback=self.parse_member)
def parse_member(self, response):
with open("03login.html",'wb') as f:
f.write(response.body)
- VirtualBox和Vmware安装增强功能
- 事件委托与阻止冒泡
- Linux网络工具之Ping命令
- Linux DNS之nslookup命令
- 【LEETCODE】模拟面试-108-Convert Sorted Array to Binary Search Tree
- javascript单线程环境实现真正的setTimeout
- 利用pipework与OVS构建跨主机容器网络
- Docker系列教程07-Dockerfile指令详解
- Docker系列教程06-实战:修改Nginx首页
- prompt() 方法,弹框带输入框
- Docker系列教程05-容器常用命令
- 数据分析利器-NumPy
- 【LEETCODE】模拟面试-134-Gas Station
- Docker系列教程17-默认bridge网络中配置DNS
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- springboot监控&springboot配置https
- 面试中最长常问到的 HashMap,你都知道多少?
- spring security 使用自定义AuthenticationFailureHandler无法跳转failureUrl
- Android studio 下载安装教程和第一个程序运行最新,多图详解
- ubuntu16.04下qt5.14报错:/home/zhangfakai/Qt5.14.1/5.14.1/gcc_64/include/QtGui/qopengl.h:141: error: GL/
- 每天手撕一道算法-64. 最小路径和
- 每日手撕一道算法题-322.零钱兑换
- 每天手撕一道算法题-130. 被围绕的区域
- TKE上部署metrics-server
- Docker-Compose搭建mysql、redis、zookeeper、rabbitmq、consul、elasticsearch环境
- MDK更改配色方案
- Apache通过多端口配置多站点
- FatFs-目录下文件扫描
- Python之Bilibili自动更新邮件提醒并任务栏图标「完整代码」
- STC15频率产生器(粗调+微调+数码管显示)完整代码