爬虫之使用requests爬取某条标签并生成词云
时间:2019-08-27
本文章向大家介绍爬虫之使用requests爬取某条标签并生成词云,主要包括爬虫之使用requests爬取某条标签并生成词云使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
一、爬虫前准备
1.工具:pychram(python3.7)
2.库:random,requests,fake-useragent,json,re,bs4,matplotlib,worldcloud,numpy,PIL,jieba
random:生成随机数
requests:发送请求获取网页信息
fake-useragent:生成代理服务器
json:数据转换
re:用于正则匹配
bs4:数据过滤
matpotlib:图像处理
worldcloud:生成词云
numpy:图像处理
PIL:图像处理
jieba:对中文进行分词(本次未用到)
3.爬虫流程
使用代码模拟浏览器发送请求-->浏览器返回信息(html/json)-->提取有用的信息-->进行储存
1)发起请求
使用代码向目标站点发送请求,即发送一个Request
请求应包含:请求头、请求体等
2)获取响应内容
发送请求成功后,会获得站点返回的信息(Response)
3)提取信息
解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery,xpath等
解析json数据:json模块
4)储存信息
以文件存储
存入数据库
二、开始爬虫
1.防止ip被封
为了防止多次访问某站点导致IP被封,对IP进行伪装。
找一些提供免费IP的网站爬取IP数据存储到本地文件中,将爬虫进行到底。
IP爬取
2.IP爬取成功后正式开始爬取某条
xhr:XMLHttpRequest 对象提供了对 HTTP 协议的完全的访问,包括做出 POST 和 HEAD 请求以及普通的 GET 请求的能力。
某条文章是动态随机推荐的,每次进入头条页面的文章都不同。
在多次分析后找到realtime_news/的xhr
访问open_url,爬取标签
至此,基本可以确定realtime_news的xhr就是要爬的文件。
思路:爬取realtime_news的xhr的文件-->获取其中open_url-->爬取标签-->生成词云
爬虫
原文地址:https://www.cnblogs.com/cchenyang/p/11416673.html
- 概率学中的随机变量与分布
- 神马?SQL竟然可以解脑筋急转弯的题目?
- android中一些特殊字符(如:←↑→↓等箭头符号)的Unicode码值
- 基于SpringBoot的任务管理平台v1.0正式发布
- 大数据系统的Lambda架构
- AKKA中的事件流
- Java初涉感悟
- Android 6.0 Permission权限与安全机制
- SpringBoot工作机制
- Android权限管理PermissionsDispatcher2.3.2使用+原生6.0权限使用
- SpringBoot中的IoC
- Sonar安装配置
- 《AngularJS深度剖析与最佳实践》推荐序
- JavaScript递归方法 生成 json tree 树形结构数据
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- Spring JPA 核心概念
- Spring JPA 查询
- 初学者指南:利用SVD创建推荐系统
- 聊一聊面试中经常被问到的Tree Shaking
- 「Workshop」第十四期:线性回归
- 评价生成器
- 【Vulnhub】Tr0ll:2
- 看到一个不错的前端面试题开源项目
- PWN:UnsortedBin Attack
- React、TypeScript、NodeJS 和 MongoDB 搭建 Todo App
- 我想new个对象过七夕,她却抛了异常···
- 在开启了CloudFlare的页面中显示当前节点信息
- MySQL 案例:无主键表引发的同步延迟
- 进入编译器后,一个函数经历了什么?
- Cloudflare中firewall的编写方法