3000字详解四种常用的缺失值处理方法
不论是自己爬虫获取的还是从公开数据源上获取的数据集,都不能保证数据集是完全准确的,难免会有一些缺失值。而以这样数据集为基础进行建模或者数据分析时,缺失值会对结果产生一定的影响,所以提前处理缺失值是十分必要的。
对于缺失值的处理大致可分为以下三方面:
- 不处理
- 删除含有缺失值的样本
- 填充缺失值
不处理应该是效果最差的了,删除虽然可以有效处理缺失值,但是会损伤数据集,好不容易统计的数据因为一个特征的缺失说删就删实在说不过去。填充缺失值应该是最常用且有效的处理方式了,下面介绍四种处理缺失值的常用Tips。
我自己构建了一个简易的含有缺失值的DataFrame,所有操作都基于这个数据集进行。
1、删除缺失值
删除虽说是一个可行的方式,但肯定是不能随便删除的,比如一个样本中仅有一个特征的值缺失,这样的情况下填充取得的效果一定会优于删除,所以在删除缺失值时,我们需要一个衡量的标准。
删除的方式无非有两种,一是删除缺失值所在行,也就是含有缺失值的样本;二就是删除缺失值所在列,也就是含有缺失值的特征,下面以后者为例。
首先需要确定的是删除的标准是什么?比如一个特征的缺失值所占比例已经超过了50%,如果选择填充的话,就表明该特征超五成的值都是自己猜测填入的,导致误差可能比删除这个特征还要大。
def find_missing(data):
#统计缺失值个数
missing_num = data.isna().sum(axis=0).sort_values(ascending=False)
missing_prop = missing_num/float(len(data)) #计算缺失值比例
drop_index = missing_prop[missing_prop>0.5].index.tolist() #过滤要删除特征名
return drop_index
在确定了这个标准之后,就可以利用一个自定义函数,将我们期望实现的功能封装至函数中。比如上面这个函数,先确定每个特征的缺失值个数并降序排列,然后计算缺失值比例,最后利用布尔索引得到需要删除的特征名。
data2 = data.copy()
data2.drop(find_missing(data2),axis = 1)
在数据集上应用这个函数,可以看到缺失值占比超50%的特征C被删除了。
这个衡量标准自己可以依据情况设定,然后删除样本的方式可以类比上述删除特征的方式。
2、pandas填充
pandas中的fillna()应该是最常用的一种填充缺失值方法,可以指定填充指定列或者整个数据集。
data['A'].fillna(value = data['A'].mean(),limit=1)
比如上面这句代码,就是只填充特征A一列,填充的选择可以利用平均数、中位数、众数等等,limit是限制要填充的个数,如果有两个缺失值,但是参数limit=1的话,按顺序填充第一个。
value参数也允许传入字典格式,键为要填充的特征名,值为要填充的缺失值。
values = {'A':4,'B':3,'C':4}
data.fillna(value=values)
填充之后结果如下:
fillna()方法固然简单,但前提是含有缺失值的特征比较少,如果很多的话,代码就会很冗杂,客观性也比较差。
3、sklearn填充
第二种填充方式是利用sklearn中自带的API进行填充。
from sklearn.impute import SimpleImputer
data1 = data.copy()
#得到含有缺失值的特征
miss_index = data1.isna().any()[data1.isna().any().values == True].index.tolist()
print(miss_index)
'''
['A', 'B', 'C']
'''
首先利用布尔索引得到数据集含有缺失值的特征,后续操作只针对含有缺失值的特征。
miss_list = []
for i in miss_index:
#将一维数组转化为二维
miss_list.append(data1[i].values.reshape(-1,1))
for i in range(len(miss_list)):
#利用众数进行填充
imp_most = SimpleImputer(strategy='most_frequent')
imp_most = imp_most.fit_transform(miss_list[i])
data1.loc[:,miss_index[i]] = imp_most
最需要注意的一点是SimpleImputer传入的参数至少要是二维,如果将直接索引出的一列特征传入的话,是会发生报错的,所以必须利用reshape()将一维转化为二维。之后的操作就是先实例化、然后训练模型,最后用填充后的数据覆盖之前的数据。
参数strategy共有四个选项可填:
- 1、mean:平均数
- 2、median:中位数
- 3、most_frequent:众数
- 4、constant:如果参数指定这个,将会选择另一个参数fill_value中的值作为填充值。
SimpleImputer优于fillna()之处在于前者可以一行语句指定填充值的形式,而利用fillna()需要多行重复语句才能实现,或者需要提前计算某列的平均值、中位数或者众数。
4、利用算法填充
我们都知道一般的算法建模是通过n个特征来预测标签变量,也就是说特征与标签标量之间存在某种关系,那么通过标签变量与(n-1)个特征是否能预测出剩下的一个特征呢?答案肯定是可以的。
实际上标签变量和特征之间可以相互转化,所以利用这种方法就可以填补特征矩阵中含有缺失值的特征,尤其适用于一个特征缺失值很多,其余特征数据很完整,特别标签变量那一列的数据要完整。
但是往往一个特征矩阵中很多特征都含有缺失值,对于这种情况,可以从特征缺失值最少的一个开始,因为缺失值越少的特征需要的信息也就越少。
当预测一个特征时,其余特征的缺失值都需要用0暂时填补,每当预测完一列特征,就用预测出的结果代替原数据集对应的特征,然后预测下一特征,直至最后一个含有缺失值的特征,此时特征矩阵中应该没有需要利用0填补的缺失值了,表示数据集已经完整。
以随机森林算法为例,实现上面表述填充缺失值的过程。
data3 = data.copy()
#获取含有缺失值的特征
miss_index = data3.isna().any()[data3.isna().any().values == True].index.tolist()
#按照缺失值多少,由小至大排序,并返回索引
sort_miss_index = np.argsort(data3[miss_index].isna().sum(axis = 0)).values
sort_miss_index
'''
array([1, 0, 2], dtype=int64)
'''
第一步就是通过布尔索引得到含有缺失值的特征,并且根据缺失值的多少进行由小到大排序,这里选择利用argsort,因为返回的排序是特征在特征矩阵中的索引。
for i in sort_miss_index:
data3_list = data3.columns.tolist() #特征名
data3_copy = data3.copy()
fillc = data3_copy.iloc[:,i] #需要填充缺失值的一列
# 从特征矩阵中删除这列,因为要根据已有信息预测这列
df = data3_copy.drop(data3_list[i],axis = 1)
#将已有信息的缺失值暂用0填补
df_0 = SimpleImputer(missing_values=np.nan,strategy='constant',fill_value=0).fit_transform(df)
Ytrain = fillc[fillc.notnull()]#训练集标签为填充列含有数据的一部分
Ytest = fillc[fillc.isnull()]#测试集标签为填充列含有缺失值的一部分
Xtrain = df_0[Ytrain.index,:]#通过索引获取Xtrain和Xtest
Xtest = df_0[Ytest.index,:]
rfc = RandomForestRegressor(n_estimators = 100)#实例化
rfc = rfc.fit(Xtrain,Ytrain) # 导入训练集进行训练
Ypredict = rfc.predict(Xtest) # 将Xtest传入predict方法中,得到预测结果
#获取原填充列中缺失值的索引
the_index = data3[data3.iloc[:,i].isnull()==True].index.tolist()
data3.iloc[the_index,i] = Ypredict# 将预测好的特征填充至原始特征矩阵中
这部分代码主要的思想就是,先将需预测的一列特征暂定为标签,然后预测列中含有数据的一部分作为训练集,含有缺失值的一部分作为测试集,通过随机森林在训练集上建模,利用模型在测试集的基础上得到缺失值那部分的数据,最后填充值原特征矩阵中。
最后预测出的结果如下:
可以看到原特征矩阵中缺失值的一部分被填充好了,这种利用算法填充缺失值的方法应该是精度最高的,因为缺失值是在原有数据的基础上预测出的,而不是随意猜测的,但缺点就是没有前几种便利,当特征或缺失值较多时会比较耗时。
说在最后
缺失值处理是特征工程至关重要的一步,而特征工程和数据本身往往决定着一个模型的上限,所以数据集中的缺失值在一个项目中值得我们花些时间去处理,而不是用自己的幸运数字随意填充,一句话总结就是"你不要你觉得,而是模型觉得"。
- Java 并发包中的读写锁及其实现分析
- 深入理解 Spring 事务原理
- Chrome开发者工具的小技巧
- Java Web中JSP中6种动作概况知识点总结——每日一语法学习
- 从Flash到Silverlight进阶教程-用代码来创建动画
- 从Flash到Silverlight进阶教程-Tweener
- silverlight设置浏览器Cookies
- 一个最基本的布局控件-panel
- silverlight项目小结
- oozie 运行demo
- sqoop 兼容性问题
- oozie 安装过程详解
- nfs挂载hdfs,实现云存储
- hadoop 1.1.2和 hive 0.10 和hbase 0.94.9整合
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- JavaScript 混淆与逆向必读之 AST 节点类型名词基础
- 手把手教你如何实现大量图片的自适应图片页面的排列
- 那些你可能不知道的浏览器奇技淫巧
- 那些你可能不知道的 windows 奇技淫巧
- LeetCode-5.最长回文子串 中心扩散法
- 再谈备份微博
- Scala中的IO操作及ArrayBuffer线程安全问题
- 关于数字雨特效的学习
- linux 之mysql——约束(constraint)详解
- NFS+NIS+Autofs 实现用户的集中化管理
- [docker]Tomcat安装及配置访问权限
- Nginx+Keepalived 保障HA高可用
- Hash一致性闭环算法 - ( 适用于Redis扩容、Nginx多级缓存 等等 )
- MySQl 事务测试
- 百万数据,SQL数据分流查询