【没落的985/211】Python爬取知乎8万字回答进行高校分析
最近知乎一个“有哪些较原来没落的985/211院校?”的问题引起了很多人的关注,回答者各种分析,但是究竟哪些学校是公认最没落的却没有定论
所以行哥尝试爬取了一共8万字的回答,通过统计的方式来找出公认最没落的学校,顺便从这些没落的学校里找出新的解读给大家分享一波,快看看有没有你的学校在里面[手动狗头]
- 爬取文字
- 分词
- 分析排名
- 机会
爬取文字
关于爬取知乎回答的代码,之前行哥有介绍过,总体就是获取知乎的问题号,利用api和正则表达式提取内容,具体可以看以下两篇推文(里面包含了源代码获取方式)
分词
使用了一款高颜值的词云包来进行统计分析。stylecloud 是一位数据科学家Max Woolf基于wordcloud优化改良而成。并添加了一些有用的功能,从而创建出独特的词云。
关键是它只需要两行代码就可以直接生成词云,不要太简单。
# 公众号:一行数据
from stylecloud import gen_stylecloud
gen_stylecloud(file_path='知乎回答.txt')
生成效果如下:
词云图中分布了各种大学的名字,快看看能不能找到你的学校
分析排名
当然词云统计并没有进行量化,不能看到大家公认的没落学校,所以行哥将8万字中提到了学校做了一个统计,该统计通过大学校名的全称和简称分别进行统计,同时未考虑某些别称(如世一大,窝工等)
统计出的结果如下图所示
大学全称统计
大学简称统计
无论是校名全称排名还是简称排名,我们都可以看到南京大学是公认的没落院校第一名,虽然现在也很厉害,但是曾经却属于亚洲第一的中央国立大学,被拆分成3所985和4所211学校,可见相对于过去的落末程度
其次兰大,东大,南开等这些老牌学校,它们的没落各有各的原因,但总体都有一个很大共同点,它们的强势专业基本集中在环化材生领域,据说“21世纪是生物的世纪”[再次手动狗头],估计还需要再等等把
机会
机会1:学校的没落意味着相对生源质量降低,竞争程度减少。对于想读研考不上热门学校热门专业的同学来说,这个排名也可以作为选学校的小小依据
机会2:后几名的某些学校,要么是名字太长在回答时写的别的简称(例如南七技校)没有统计出来,要么就是真正的没落了,没落到没人提了。但是这些学校也挂着211/985的牌子,可以作为考研的一个考虑哦
统计为0的学校
机会3:以点看面,无论是学校还是个人都无法逃脱时代大势的影响,已经上了环化材生大船的同学可得早点规划下自己未来,不然没落的不仅是学校了,还有.....
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- go modules中使用replace用法
- 分布式文件系统Ceph的挂载方式
- 在CentOS 7上挂载CephFS
- Qt音视频开发14-mpv读取和控制
- 深入理解Nginx的rewrite模块
- max os 安装各种问题/Error解决方法
- 不要启用 net.ipv4.tcp_tw_recycle
- 利用SSH(无密码)免登录来节省你的生命
- 深入linux下磁盘Disk,分区Partition,挂载Mount
- 净化Git之rebase变基的使用
- Linux内存管理 一个进程究竟占用多少空间?-VSS/RSS/PSS/USS
- Bash:选择结构之case
- ElasticSearch的Reindex
- 10行Python代码自动清理电脑内重复文件,解放双手!
- 【投稿】刀哥:Rust学习笔记 3