数据分析进阶课程笔记(六)
网络服务本质是指你可以利用HTTP请求进行访问的数据库。但是要访问某个数据库必然要知道它所需要的参数是哪些。显然,不同的网站、不同类别的数据对参数的要求不尽相同。
当需要用Python获取存在网页上的数据时,首先要知道它所需要传递的参数有哪些。达到这个目的的方法就是使用浏览器的“检查”功能
黑粗体所标注出来的就是需要传递的参数,在这个例子中有8个参数:
__EVENTTARGET: checked
__EVENTARGUMENT:checked
__VIEWSTATE:checked
(__VIEWSTATEGENERATOR:)checked
__EVENTVALIDATION:checked
CarrierList:All checked
AirportList:BOS checked
Submit:Submit checked
这8个参数当中有5个是隐藏参数(具体发挥哪些作用我也不是很懂),其余3个是可以在网页中直接被看见的,不是隐藏参数。
找到了参数,可以看看它们在element中对应的具体值是什么,以下是实现的方法,主要就是对Python中BeautifulSoup包的使用。
from bs4 import BeautifulSoup
import requests
import json
html_page = "page_source.html"
def extract_data(page):
data = {"eventvalidation": "",
"viewstate": ""}
with open(page, "r") as html: #注意这里要先打开文件
soup = BeautifulSoup(html,'lxml') #这里对文件进行解析,lxml是解析的方式
ev = soup.find(id='__EVENTVALIDATION')
#以__EVENTVALIDATION为关键词进行查找,注意要加上id=,把结果保存到ev当中
data['eventvalidation'] = ev['value']
#提取ev的值,注意不能直接令它为字典的值,而要用value作为索引
vi = soup.find(id='__VIEWSTATE')
data['viewstate'] = soup.find('viewstate')
return data
也就是说,如果要获取数据,这8个参数是必不可少的。至于如何抓取网页,留待下次记录。
- 【问底】王帅:深入PHP内核(一)——弱类型变量原理探究
- 一次对个人服务器入侵事件的调查
- BlackHat议题解析:Windows程序的数字签名校验“漏洞”
- 都是权限惹的祸 | 安卓恶意APP如何将其他APP中的私有数据搞到手
- SQLiScanner:又一款基于SQLMAP和Charles的被动SQL 注入漏洞扫描工具
- 逆向工厂(一):从hello world开始
- Android系统到底安不安全?细数Android7.0 Nougat的几大安全增强功能
- 冒用数字签名的对抗:亟需加强的签名审核
- Twitter开源云环境时间序列数据断层检测工具BreakoutDetection
- 用Python的长短期记忆神经网络进行时间序列预测
- 【问底】许鹏:使用Spark+Cassandra打造高性能数据分析平台(一)
- 隐秘通讯与跳板?C&C服务器究竟是怎么一回事
- 灵活布置、可二次开发的乌云公开漏洞及知识库搜索
- 干货 | 2014年我国大数据发展分析报告
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Mybatis的缓存机制详解
- zookeeper基本特性与基于Linux的ZK客户端命令行学习
- Apache Curator操作zookeeper的API使用
- 使用Java API操作zookeeper的acl权限
- 使用ZooKeeper提供的原生Java API操作ZooKeeper节点
- CountDownLatch类的使用
- Spring-如何给静态变量注入值
- ZooKeeper的伪分布式集群搭建以及真分布式集群搭建
- zookeeper权限acl与四字命令
- 微信公众号开发-素材/消息管理接口
- 微信开发的一些神坑
- Spring Boot集成ElasticSearch实现简单的增删查改接口
- Spring Cloud Zuul 综合使用
- Spring Cloud Hystrix - 服务容错
- 记一次内存溢出问题的排查、分析过程及解决思路