jointplot快速探究两组变量的分布及关系

时间:2022-07-27
本文章向大家介绍jointplot快速探究两组变量的分布及关系,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

在seaborn中,jointplot函数提供了一种综合的可视化方案,可以同时绘制两组变量的散点图以及各自对应的直方图,基本用法如下

>>> import matplotlib.pyplot as plt
>>> import seaborn as sns
>>> import pandas as pd
>>> df = pd.read_csv("penguins.csv")
>>> sns.jointplot(data=df, x='bill_length_mm', y='bill_depth_mm')
<seaborn.axisgrid.JointGrid object at 0x10108D90>
>>> plt.show()

输出结果如下

除了这种基本的展示形式外,我们还可以通过kind参数来调整可视化形式。下面来详细看下不同取值下的可视化形式

1. reg

用法如下

>>> sns.jointplot(data=df, x='bill_length_mm', y='bill_depth_mm', kind='reg')
>>> plt.show()

输出结果如下

2. hist

用法如下

>>> sns.jointplot(data=df, x='bill_length_mm', y='bill_depth_mm', kind='hist')
>>> plt.show()

输出结果如下

3. kde

用法如下

>>> sns.jointplot(data=df, x='bill_length_mm', y='bill_depth_mm', kind='kde')
>>> plt.show()

输出结果如下

4. hex

用法如下

>>> sns.jointplot(data=df, x='bill_length_mm', y='bill_depth_mm', kind='hex')
>>> plt.show()

输出结果如下

5. resid

用法如下

>>> sns.jointplot(data=df, x='bill_length_mm', y='bill_depth_mm', kind='resid')
>>> plt.show()

输出结果如下

在此基础上,我们可以通过两个函数来进一步丰富可视化形式,用法如下

>>> g = sns.jointplot(data=df, x='bill_length_mm', y='bill_depth_mm')
>>> g.plot_joint(sns.rugplot, color='r')
>>> g.plot_marginals(sns.histplot, kde=True)
>>> plt.show()

输出结果如下

plot_joint函数用于指定x和y相互关系的可视化形式,plot_marginals函数用于指定x和y变量各自分布的可视化形式。结合jointplot一起使用时,是在已有可视化元素的基础上进行添加,可以通过zorder等参数指定优先级。

jointplot提供了简便的借口供我们使用,如果要追求灵活性的话,可以通过JointGrid函数来实现同样的效果,用法如下

>>> g = sns.JointGrid(data=df, x='bill_length_mm', y='bill_depth_mm')
>>> g.plot(sns.scatterplot, sns.histplot)
>>> plt.show()

输出结果如下

其实JointGrid的用法非常灵活,以下三种写法的效果是等价的

# 第一种
>>> g = sns.JointGrid(data=df, x='bill_length_mm', y='bill_depth_mm')
>>> g.plot(sns.scatterplot, sns.boxplot)
>>> plt.show()

# 第二种
>>> g = sns.JointGrid(data=df, x='bill_length_mm', y='bill_depth_mm')
>>> g.plot_joint(sns.scatterplot)
>>> g.plot_marginals(sns.boxplot)
>>> plt.show()

# 第三种
>>> g = sns.JointGrid()
>>> sns.scatterplot(x=df['bill_length_mm'], y=df['bill_depth_mm'], ax=g.ax_joint)
>>> sns.boxplot(x=df['bill_length_mm'], ax=g.ax_marg_x)
>>> sns.boxplot(y=df['bill_depth_mm'], ax=g.ax_marg_y)
>>> plt.show()

输出结果如下

第三种写法分别指定每个axes的绘图函数以及参数,提供了最大程度的灵活性,可以将其设定为不同的可视化形式,用法如下

>>> g = sns.JointGrid()
>>> sns.scatterplot(x=df['bill_length_mm'], y=df['bill_depth_mm'], ax=g.ax_joint)
>>> sns.histplot(x=df['bill_length_mm'], ax=g.ax_marg_x)
>>> sns.boxplot(y=df['bill_depth_mm'], ax=g.ax_marg_y)
>>> plt.show()

输出结果如下

jointplot以及可以基本的使用需求,如果要追求灵活性,推进使用JointGrid。