小知识 词云制作

时间:2022-07-22
本文章向大家介绍小知识 词云制作,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

wordcloud是一个非常优秀的词云展示工具,jieba 是用来处理中文分词的第三方库。分别安装两个库 pip install wordcloud 、pip intsall jieba。

将以下摘自百度百科关于数据学和数据科学的发展历史文字作为分词语料:

数据科学在20世纪60年代已被提出,只是当时并未获得学术界的注意和认可,1974年彼得.诺尔出版了《计算机方法的简明调查》中将数据科学定义为:“处理数据的科学,一旦数据与其代表事物的关系被建立起来,将为其他领域与科学提供借鉴”。1996年在日本召开的“数据科学、分类和相关方法”,已经将数据科学作为会议的主题词。2001年美国统计学教授威廉.s.克利夫兰发表了《数据科学:拓展统计学的技术领域的行动计划》,因此有人认为是克利夫兰首次将数据科学作为一个单独的学科,并把数据科学定义为统计学领域扩展到以数据作为现金计算对象相结合的部分,奠定了数据科学的理论基础。

制作词云的代码如下:

# 导入jiba,wordcloud
import jieba 
import wordcloud 
# 创建词库 摘自百度百科对数据科学的介绍
words = "数据科学在20世纪60年代已被提出,只是当时并未获得学术界的注意和认可,1974年彼得.诺尔出版了《计算机方法的简明调查》中将数据科学定义为:“处理数据的科学,一旦数据与其代表事物的关系被建立起来,将为其他领域与科学提供借鉴”。1996年在日本召开的“数据科学、分类和相关方法”,已经将数据科学作为会议的主题词。2001年美国统计学教授威廉.s.克利夫兰发表了《数据科学:拓展统计学的技术领域的行动计划》,因此有人认为是克利夫兰首次将数据科学作为一个单独的学科,并把数据科学定义为统计学领域扩展到以数据作为现金计算对象相结合的部分,奠定了数据科学的理论基础。"
# 创建一个词云对象,可以设置词云的形状、尺寸和颜色等。
cloud = wordcloud.WordCloud(width=555,height=555,font_path='msyh.ttc')
# 词云对象中加载文本
cloud.generate('/'.join(jieba.lcut(words))) 
# 输出词云为照片并保存
cloud.to_file('datascience.png')

注:font_path 参数用的是微软雅黑字体,如果是MAC OS 和Linux系统需要替换到linux所安装的中文字体

效果如下:

补充:

将词云中的背景改变颜色

wordcloud.WordCloud(x,x,background_color='white')

设置词云最大文字的大小和最小文字的大小

设置最小:min_font_size()
设置最大:max_font_size()