Python数据可视化-seaborn Iris鸢尾花数据
原文链接:http://tecdat.cn/?p=5261
首先介绍一下Iris鸢尾花数据集,内容摘自百度百科:Iris数据集是常用的分类实验数据集,由Fisher, 1936收集整理。“Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。数据集包含150个数据集,分为3类,每类50个数据,每个数据包含4个属性。可通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类”。
导入库
读取数据
数据字段介绍:
- sepal_length:花萼长度,单位cm
- sepal_width:花萼宽度,单位cm
- petal_length:花瓣长度,单位cm
- petal_width:花瓣宽度,单位cm
- 种类:setosa(山鸢尾),versicolor(杂色鸢尾),virginica(弗吉尼亚鸢尾)
在做categorical visualization的时候,seaborn给出了基础的stripplot & swarmplot, boxplot & violinplot, barplot & pointplot,以及抽象化的factorplot.下面就用纸鸢花数据集做一下讲解。
StripplotStripplot的本质就是把数据集中具有quantitative属性的变量按照类别去做散点图(Scatterplot)。
我们将纸鸢花数据集中不同种类花的sepal length做stripplot可视化
plt.show()
上边左侧的图片便是在默认风格下用stripplot绘制的散点图。在很多情况下,stripplot中的点会重叠,使得我们不容易看出点的分布情况。一个简单的解决办法就是用在stripplot的基础上绘制抖动图(jitterplot),仅沿着类别坐标轴的方向去随机微调整点的位置,显示出分布情况。
Swarmplot另一个解决stripplot中点重叠的办法就是绘制swarmplot,它的本质就是用通过算法,在类别坐标轴的方向上去‘延展’绘制这些原本重合的点。我们将纸鸢花数据集中不同种类花的petal length和petal width做swarmplot可视化。
plt.subplot(1,2,1)
sns.swarmplot(x='Species',y='Petal.Length',data=iris)
plt.show()
Boxplot箱形图,主要包含六个数据节点,将一组数据从大到小排列,分别计算出上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有异常值。下面将纸鸢花数据集中的四个变量sepal_length, sepal_width, petal_length和petal_width做箱形图可视化。
fig = plt.figure(1,figsize=(12,12))
plt.show()
Violinplot
Violinplot相当于结合了箱形图与核密度图,更好地展现出数据的量化形态。展示如下:
plt.figure(1,figsize=(12,12))
for i in range(4):
plt.show()
Violinplot用kernel density estimate去更好地描述了quantitative变量的分布。
与此同时,也可以组合swarmplot和boxplot或violinplot去描述quantitative变量。用鸢尾花数据集展示如下:
In [8]:
plt.figure(1,figsize=(12,12))
plt.title(str(var[i])+ ' in Iris species')
plt.show()
BarplotBarplot主要是展现在分类中的quantitative变量的平均值情况,并且用了boostrapping算法计算了估计值的置信区间和error bar.用鸢尾花数据集展示如下:
Countplot如果想知道在每个类别下面有多少个观察值,用countplot就可以,相当于是做一个observation counts,用鸢尾花数据集展示如下:
PointplotPointplot相当于是对barplot做了一个横向延伸,一方面,用point estimate和confidence level去展示barplot的内容;另一方面,当每一个主类别下面有更细分的sub-category的时候,pointplot可以便于观察不同sub-category在各主类别之间的联系。展示如下:
FactorplotFactorplot可以说是seaborn做category visualization的精髓,前面讲的这些plot都可以说是factorplot的具体展示。我们可以用PariGrid去实现对多个类别的数值特征用同一种plot做可视化。
In [12]:
g.map(sns.violinplot,palette='pastel')
plt.show()
附上各plot function的API,今后将会对API中的参数结合tutorial讲讲,如何做出更好的可视化效果。更新ing
seaborn.stripplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,
ata=None, order=None, hue_order=None,
bw='scott', cut=2, scale='area', scale_hue=True, gridsize=100, width=0.8, inner='box',
split=False, dodge=True, orient=None, linewidth=None, color=None, palette=None,
saturation=0.75, ax=None, **kwargs)
seaborn.lvplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None,
orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True,
小结
seaborn是一个很棒的可视化库,尤其是当数据维度很大的时候,seaborn可以让我们用最少的代码去绘制一些描述性统计的图,便于找寻各维度变量之间的特征。此篇文档也是我对seaborn的学习笔记,这次整理的内容是关于category visualization。下次将会选取其他数据集去整理关于distribution visualization的内容。
- mybatis 使用tips - 使用多个参数
- 从高的角度看自动化测试
- Django中请求的生命周期
- 程序猿python学习AIphaZero,TensorFlow强化学习AI游戏,100行代码运行看看!
- awk中NF的使用
- tar.gz 解压
- Python&机器学习之项目实践
- JAVA CDI 学习(5) - 如何向RESTFul Service中注入EJB实例
- mysql5.7 column cannot be null
- 区块链大热 价值近20万的Matrix.io被启用
- 比特币科普之什么是区块高度?
- 如何正确并快速理解MapReduce
- mysqldump的简单使用
- mac:在当前文件夹打开terminal终端
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- JavaScript 错误处理大全【建议收藏】
- Java8 用 Stream 快速实现List转Map 、分组、过滤等操作
- swoole框架异常处理
- 使用composer本地开发项目
- GDAL数据集写入空间坐标参考
- html & CSS & JavaScript的学习
- 打卡群刷题总结0824——电话号码的字母组合
- 打卡群刷题总结0825——括号生成
- Ajax与Json的学习
- pytest文档48-切换环境(pytest-base-url)
- 打卡群刷题总结0826——组合总和
- 排序之简单排序
- 打卡群刷题总结0827——组合总和 II
- 快速学习-Gateway--服务网关
- 用Python写一个身份证号码校验系统