用Python爬取7月大瓜吴亦凡发表微博的加所有热评
时间:2021-07-20
本文章向大家介绍用Python爬取7月大瓜吴亦凡发表微博的加所有热评,主要包括用Python爬取7月大瓜吴亦凡发表微博的加所有热评使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
前言
2021年的七月,最大的瓜应该就是吴亦凡了。娱乐圈爆瓜,早已不是什么新鲜事,但吴亦凡这个瓜,尤其的大!
事情是这样的,一位叫“都美竹”的大一女孩在微博爆料,称与吴亦凡恋爱期间遭受冷暴力,并称吴亦凡存在“选妃”及“诱骗”未成年女孩的行为,随后,又有多位自称和吴亦凡有过关系牵扯的女孩纷纷晒出聊天记录,以佐证吴亦凡的行径。
刚好今天无聊,就那这位“吴先生”的微博来当做一个案例练练手了
受害者地址:https://m.weibo.cn/search?containerid=231583
目标微博
50多万的转发,100万的评论,1700万的点赞,依然是牛的
不知为何,看到网友的评论就想笑
废话不多说,开始撸代码
完整源码加Python学习交流群:1039649593找管理员免费获取
开发环境:
- 解释器: Python 3.6.5 | Anaconda, Inc.
- 编辑器: pycharm 专业版
开始代码
1. 找到网页数据
先F12打开开发者工具,在里面找到数据所在的位置,获取URL
请求打印一下
import requests
import pprint
comments_url = 'https://m.weibo.cn/api/container/getIndex?containerid=2304133591355593_-_WEIBO_SECOND_PROFILE_WEIBO&luicode=10000011&lfid=2302833591355593&page_type=03&page='
response = requests.get(comments_url)
pprint.pprint( comments data)
2. 分析提取网页数据
for card in cards:
if card.get('mblog'):
m_blog = card.get('mblog')
text = m_blog.get('text')
mid = m_blog.get('mid') # 本身就是字符串不需要转化
screen_name = m_blog.get('user').get('screen_name')
print([screen_name, mid, text])
运行代码,就可以得到“吴先生”所发的微博了
3.提取热评数据
sub_comment_url = 'https://m.weibo.cn/comments/hotflow?id=' + str(mid) + '&mid=' + mid + '&max_id_type=0'
sub_response = requests.get(sub_comment_url)
sub_data = sub_response.json()
pprint.pprint(sub_data) # 获取字典里面提取数据
data_list = sub_data['data']['data']
for data in data_list:
print('data', data)
text = data['text']
mid = data['mid']
if 'more_info_users' in data:
screen_name = data['more_info_users'][0]['screen_name']
print('sub_commit:', [screen_name, mid, text])
4. 保存数据
import openpyxl
# 创建 excel 表格
workbook = openpyxl.Workbook()
# 使用一张数据表
sheet = workbook.active
workbook.save('吴先生.xlsx')
运行代码得到完整的数据
原文地址:https://www.cnblogs.com/qshhl/p/15035431.html
- java之自动过滤提交文本中的html代码script代码
- Enumerable#zip特性
- java小技术之生成二维码
- java实现发送邮件服务器,SMTP协议发送邮件
- HttpURLConnection实现两个服务端的对接
- java获取properties配置文件值
- 安全退出app,activoty栈管理
- JavaBean转Map方法
- JsBridge实现JavaScript和Java的互相调用
- JAVA-FTP批量大文件传输
- 独家 | 一文读懂TensorFlow(附代码、学习资料)
- 解决openssh漏洞,升级openssh版本
- 解决NTPD漏洞,升级Ntpd版本
- 独家 | 手把手教TensorFlow(附代码)
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 漫画:什么是 “抽象工厂模式” ?
- 啥?Grafana 还能为日志添加告警?
- Docker映射详解,没问题了!
- 写了很久!详细理解Spring和IoC
- 一位摸金校尉决定转行前端
- CentOS7下搭建并体验HFish开源蜜罐系统
- 唐朝人更懂React
- 唐朝人更懂React
- 一起学习PHP的runkit扩展如何使用
- CentOS7下部署开源网络流量回溯分析系统Moloch
- spring源码(八)
- 通过源码理解rarp协议(基于linux1.2.13)
- 详解Im2Col+Pack+Sgemm策略更好的优化卷积运算
- Kubernetes 使用 ceph-csi 消费 RBD 作为持久化存储
- 聊聊调试的那些事,超实用!!!