利用箱线图巧剔异常值

时间:2022-07-23
本文章向大家介绍利用箱线图巧剔异常值,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

每个研究生都盼望着“天天有数据,年年发文章”,但有时候我们会发现实验数据中存在一些不合理的值。剔除这些异常值的办法有很多,在这里小编教大家使用箱线图剔除异常值。

使用箱线图剔除异常值的标准很简单,超出箱线图上限和下限的值即为异常值。

那什么是箱线图的上限和下限呢?首先让我们来理解几个概念。

上四分位数(Q1):所有数值由小到大排列后位于第75%位置的数字。

下四分位数(Q3):所有数值由小到大排列后位于第25%位置的数字。

四分位间距(IQR):上四分位数减下四分位数。(Q1-Q3)

上限即为非异常值范围内的最大值。(Q1+1.5*IQR)

下限即为非异常值范围内的最小值。(Q3-1.5*IQR)

根据上述箱形图剔除异常值的标准,小编写了一个脚本,可以快速去除异常值。

脚本储存在https://github.com/biozhp/boxplot_iqr (点击阅读原文即可下载),下载解压后即可使用。

输入文件为以“tab”为分隔符的文本文件。第一列为样本名称,第二列为数值。

## 该脚本须在Linux环境下使用,并安装有Python及R语言
sh ./run_pipline.sh ./input.txt ./out_name

脚本执行完成后即可获得剔除异常值后的文件(out_name.iqr.txt)。

参考资料:

R语言实战(第2版)122-123页

https://blog.csdn.net/clairliu/article/details/79217546

https://www.jianshu.com/p/76d872022dd8