urllib库添加headers的一般方法
时间:2020-05-13
本文章向大家介绍urllib库添加headers的一般方法,主要包括urllib库添加headers的一般方法使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
对于请求一些网站,我们需要加上请求头才可以完成网页的抓取,不然会得到一些错误,无法返回抓取的网页。下面,介绍两种添加请求头的方法。
方法一:借助build_opener和addheaders完成
1 import urllib.request 2 url="http://www.meizitu.com" 3 #注意:在urllib 中headers是元组 4 headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE") 5 6 opener=urllib.request.build_opener() 7 opener.addheaders=[headers] 8 data=opener.open(url) 9 print(data.read())
注意:此处的headers要写为一个元组类型才可以。写为字典类型的话会报错!
方法二、创建一个Request实例对象
1 # 案例1 2 import urllib.request 3 url="http://www.meizitu.com" 4 #注意:在urllib 中这种的headers 是需要是字典的 5 headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"} 6 req=urllib.request.Request(url=url,headers=headers) 7 file=urllib.request.urlopen(req) 8 9 #出现有些解码错误的话,加上“ignore”就可以啦 10 print(file.read().decode("utf-8",'ignore'))
- 注意:此处的headers要写为一个字典类型才可以。
- 创建一个Reques对象,把需要的headers,url,proxy 都放进去,或者在post 请求中还可以把编码过后的data 值放进去,再用urlopen 打开,就比较方便了。
另外,这种方法还可以用add_headers()来添加headers,代码如下:
1 import urllib.request 2 try: 3 url="http://www.meizitu.com" 4 5 req=urllib.request.Request(url=url) 6 7 req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE") 8 file=urllib.request.urlopen(req,timeout=10.1) 9 10 print(file.read().decode("utf-8",'ignore')) 11 except Exception as e: 12 print("时间超时",str(e))
总结:通过以上两种方法,可以完成请求头的相关参数设置,但是得注意headers是用字典类型来传入还是元组类型。
原文地址:https://www.cnblogs.com/lincappu/p/12883519.html
- Entity Framework4.3 Code-First基于代码的数据迁移讲解1.建立一个最初的模型和数据库 2.启动Migration(数据迁移)3.第一个数据迁移4.订制的数据迁移4.动态
- 轻松初探Python(六)—函数
- css3实现圆角边框渐变
- 设计模式专题(十二)——状态模式
- HTML5新增属性学习笔记
- HTML5标签学习笔记
- 设计模式专题(十三) ——备忘录模式
- 设计模式专题(十五) ——组合模式
- 设计模式专题(十六)——迭代器模式
- 设计模式专题(十七) ——单例模式
- 设计模式专题(十八) ——桥接模式
- 设计模式专题(十九) ——命令模式
- Thinking in SQL系列之:数据挖掘K均值聚类算法与城市分级
- 设计模式专题(二十) ——职责链模式
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- VBA解析复合文档04——解析目录信息
- 【程序源代码】基于NetCore2.2/3.1功能强大的Cms建站系统
- Linux如何屏蔽国外IP-宝塔如何屏蔽国外IP-appnode如何屏蔽国外IP
- Spring Boot Actuator H2 RCE复现-解决篇
- Spring Boot Actuator H2 RCE复现
- 【JAVA基础&高级】 数组篇
- 回文对
- 初探线程池
- 【译】代码中如何写出更有意义的命名
- nodejs源码分析之线程
- Java String Krains 2020-08-05
- 垃圾回收相关概念 Krains 2020-08-06
- 算法—判断字符串是否为IP地址
- 基于SpringBoot的Web前后端分离开发
- 【赵渝强老师】Docker的日志