【没落的985/211】Python爬取知乎8万字回答进行高校分析

时间:2022-07-22
本文章向大家介绍【没落的985/211】Python爬取知乎8万字回答进行高校分析,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

最近知乎一个“有哪些较原来没落的985/211院校?”的问题引起了很多人的关注,回答者各种分析,但是究竟哪些学校是公认最没落的却没有定论

所以行哥尝试爬取了一共8万字的回答,通过统计的方式来找出公认最没落的学校,顺便从这些没落的学校里找出新的解读给大家分享一波,快看看有没有你的学校在里面[手动狗头]

  • 爬取文字
  • 分词
  • 分析排名
  • 机会

爬取文字

关于爬取知乎回答的代码,之前行哥有介绍过,总体就是获取知乎的问题号,利用api和正则表达式提取内容,具体可以看以下两篇推文(里面包含了源代码获取方式)

【安排】23行代码爬取知乎全部回答(内附源码和应用程序)

一分钟爬取知乎5646个知乎回答(内附代码)

分词

使用了一款高颜值的词云包来进行统计分析。stylecloud 是一位数据科学家Max Woolf基于wordcloud优化改良而成。并添加了一些有用的功能,从而创建出独特的词云。

关键是它只需要两行代码就可以直接生成词云,不要太简单。

# 公众号:一行数据
from stylecloud import gen_stylecloud
gen_stylecloud(file_path='知乎回答.txt')

生成效果如下:

词云图中分布了各种大学的名字,快看看能不能找到你的学校

分析排名

当然词云统计并没有进行量化,不能看到大家公认的没落学校,所以行哥将8万字中提到了学校做了一个统计,该统计通过大学校名的全称和简称分别进行统计,同时未考虑某些别称(如世一大,窝工等)

统计出的结果如下图所示

大学全称统计

大学简称统计

无论是校名全称排名还是简称排名,我们都可以看到南京大学是公认的没落院校第一名,虽然现在也很厉害,但是曾经却属于亚洲第一的中央国立大学,被拆分成3所985和4所211学校,可见相对于过去的落末程度

其次兰大,东大,南开等这些老牌学校,它们的没落各有各的原因,但总体都有一个很大共同点,它们的强势专业基本集中在环化材生领域,据说“21世纪是生物的世纪”[再次手动狗头],估计还需要再等等把

机会

机会1:学校的没落意味着相对生源质量降低,竞争程度减少。对于想读研考不上热门学校热门专业的同学来说,这个排名也可以作为选学校的小小依据

机会2:后几名的某些学校,要么是名字太长在回答时写的别的简称(例如南七技校)没有统计出来,要么就是真正的没落了,没落到没人提了。但是这些学校也挂着211/985的牌子,可以作为考研的一个考虑哦

统计为0的学校

机会3:以点看面,无论是学校还是个人都无法逃脱时代大势的影响,已经上了环化材生大船的同学可得早点规划下自己未来,不然没落的不仅是学校了,还有.....