爬虫之使用requests爬取某条标签并生成词云

一、爬虫前准备

random：生成随机数

requests：发送请求获取网页信息

fake-useragent：生成代理服务器

json：数据转换

re：用于正则匹配

bs4：数据过滤

matpotlib：图像处理

worldcloud：生成词云

numpy：图像处理

PIL：图像处理

jieba：对中文进行分词(本次未用到)

使用代码模拟浏览器发送请求-->浏览器返回信息(html/json)-->提取有用的信息-->进行储存

使用代码向目标站点发送请求，即发送一个Request

请求应包含：请求头、请求体等

发送请求成功后，会获得站点返回的信息(Response)

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery，xpath等

解析json数据：json模块

以文件存储

存入数据库

为了防止多次访问某站点导致IP被封，对IP进行伪装。

找一些提供免费IP的网站爬取IP数据存储到本地文件中，将爬虫进行到底。

IP爬取

xhr：XMLHttpRequest 对象提供了对 HTTP 协议的完全的访问，包括做出 POST 和 HEAD 请求以及普通的 GET 请求的能力。

某条文章是动态随机推荐的，每次进入头条页面的文章都不同。

在多次分析后找到realtime_news/的xhr

访问open_url，爬取标签

至此，基本可以确定realtime_news的xhr就是要爬的文件。

思路：爬取realtime_news的xhr的文件-->获取其中open_url-->爬取标签-->生成词云

爬虫

原文地址：https://www.cnblogs.com/cchenyang/p/11416673.html