文本挖掘| 某作者文章的词频统计排序
时间:2022-07-22
本文章向大家介绍文本挖掘| 某作者文章的词频统计排序,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
R语言之文本挖掘
其实,现在的互联网数据大多数是非结构化的,比如谷歌,雅虎,搜狐等网站的文本数据已经泛滥成灾。文本挖掘有很多的用处,比如了解患者对罕见癌症的关注度,统计政府演讲报告词频高低,情感分析,作家常用词等等,接下来了解一下喜欢的作者列夫·托尔斯泰的代表作品中的常用词有哪些?
01
下载Graf Leo Tolstoy作品
#下载Graf Leo Tolstoy(伯爵列夫·托尔斯泰)的代表作
《War and Peace》战争与和平
《Anna Karenina》安娜·卡列尼娜
《The Awakening》复活
《Best Russian Short Stories》俄国短篇小说
进入官网http://www.gutenberg.org查找相应书籍的ebooks的编号。利用gutenberg_download()函数下载。
>tolstoy<gutenberg_download(c(2600,1399,17352,13437))
>tolstoy
02
分词
> library(tidytext)
> tidy_tolstoy<-tolstoy%>%unnest_tokens(word,text)
> tidy_tolstoy
3
删除停用词
#首先查看一下停用词
> data(stop_words)
> View(stop_words)
#删除停用词
>tidy_tolstoy_stop<-tidy_tolstoy%>%anti_join(stop_words)
04
统计词个数并降序
> tidy_tolstoy_stop%>%count(word,sort=TRUE)
#可以对比一下删除停用词前后的结果
>tidy_tolstoy%>%count(word,sort=TRUE)
前
后
05
#绘图
#把word出现次数n>1000的进行绘图
>library(ggplot2)
> tidy_tolstoy_stop%>%count(word,sort=TRUE)%>%filter(n>1000)
%>%mutate(word=reorder(word,n))%>%ggplot(aes(word,n))
+geom_col(color="grey20",fill="#336A97")+ylab("Number")
+labs(title="Leo Tolstoy's masterpiece",caption="Origin:http://www.gutenberg.ory
+ Desigener:LXL")+coord_flip()+theme(plot.title = element_text(face = "bold",
hjust = 0.5,size=20,color = "black"),plot.caption = element_text(face = "bold",size = 10),
panel.grid=element_blank(),panel.background=element_rect(fill='grey90'),
axis.text.x=element_blank())
小结
通过比较,可知列夫·托尔斯泰的代表作品《War and Peace》战争与和平、《Anna Karenina》安娜·卡列尼娜、《The Awakening》复活、《Best Russian Short Stories》俄国短篇小说中出现频率最高的是prince,其次是time.....此外,利用文本挖掘工具,我们还可以了解历年英语考研真题/专业考研题目中出现频率最高的有哪些?为考研顺利上岸设计有针对性的复习重点。
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 聊聊Android编译流程
- Android组件化问题思考
- 最近面试碰到的两道算法题|面试相关
- Thread也会OOM吗?
- RoundCube Webmail邮件正文存储型XSS(CVE-2015-1433)
- 再谈Android Lint
- Android DiffUtil 封装|深拷贝
- [CVE-2014-8959] phpmyadmin任意文件包含漏洞分析
- Android 统计页面渲染时长
- Transform和Task之间有关?| Gradle
- user.ini文件构成的PHP后门
- Android厂商推送Plugin化 | 掘金技术征文-双节特别篇
- 关于lnmp目录禁止执行的绕过与正确方法
- Quill编辑器自定义字体和字体大小
- emlog某重要插件前台SQL注入+Getshell