Python骚操作:一行代码实现探索性数据分析
时间:2022-07-24
本文章向大家介绍Python骚操作:一行代码实现探索性数据分析,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
dataprep.eda
在使用数据前,我们首先要做的是观察数据,包括查看数据的类型、数据的范围、数据的分布等。dataprep.eda是个非常不错的工具,它可以帮你快速生成数据概览。dataprep.eda包含的一些智能特性:
- 为每个 EDA 任务选择正确的图形来可视化数据
- 列类型推断(数字型、类别型和日期时间型)
- 选择合适的时间单位(用户也可以指定)
- 对数量庞大的类型数据输出清晰的可视化方案(用户也可以指定)
dataprep安装
安装dataprep仅需要执行pip instal dataprep即可,由于依赖比较多,安装过程比较慢,需要耐心等待。
如果报错,多半是权限问题,可以在后面加上--user
实例
为了看到这一点的实际应用,我们将使用一个泰坦尼克数据集,我们从数据集的概述开始:
from dataprep.eda import *
import pandas as pd
train_df = pd.read_csv('titanic/train.csv')
train_df
一行代码实现数据集可视化探索
plot(train_df)
plot(df)显示每列的分布。对于分类列,它以蓝色显示条形图。对于数字列,它以灰色显示直方图。从图的输出,我们知道:
- 所有列:有1个标签列和11个特征
- 分类栏:幸存,PassengerId,Pclass,姓名,性别,票证,出发。
- 数字列:年龄,SibSp,parch,票价。
- 缺失值:从图形标题中,我们可以找到3列缺失值。即年龄(19.9%),机舱(77.1%),登机(0.2%)。
- 标签余额:来自幸存者的分布,我们知道,正面和负面的训练实例并不太平衡。 有38%的数据带有标签Survived = 1。当前,列类型(即分类或数字)基于输入数据框中的列类型。因此,如果某些列类型被错误地标识,则可以在数据框中更改其类型。例如,通过调用df [col] = df [col] .astype(“ object”),可以将col标识为分类列。
for col in ['Survived', 'Pclass']:
train_df[col] = train_df[col].astype("object")
plot(train_df
)
要了解缺失值,我们首先调用plot_missing(df)来查看缺失值。
plot_missing(train_df)
顶部是可选的,比如选择spectrum可以更具体的看出缺失情况
选择heatmap可以用热力图形式查看缺失情况
接下来,我们决定如何处理缺失值:如果要删除缺失特征,删除包含缺失值的行还是填充缺失值?我们首先分析它们是否与生存相关。如果它们是相关的,则我们可能不想删除该特征。我们通过调用plot(df,x,y)分析两列之间的相关性。这里就不展示了,大家可以探索一下,代码如下
for feature in ['Age', 'Cabin', 'Embarked']:
plot(train_df, feature, 'Survived')
现在,我们逐一确定了有用的特征,并删除了无用的特征。虽然每个特征都可用于预测Survived,但是当我们将它们一起考虑时,我们可能不想要相关特征。因此,我们首先进行身份相关的特征。这可以通过简单地调用plot_correlation(df)来完成。
骚操作学到了吗?
- jQuery打造智能提示插件二(可编辑下拉框)
- Nicholas Christakis:朋友多是由基因决定的?
- WPF中的MatrixTransform
- kvm虚拟化管理平台WebVirtMgr部署-虚拟化环境安装-完整记录(0)
- ruby学习笔记(3)--语法层面的先见之明
- jQuery操作Select
- ruby学习笔记(11)--symbol与hash参数
- zabbix监控-基本原理介绍
- OpenStack构架知识梳理
- mysql操作命令梳理(4)-grant授权和revoke回收权限
- 问未来
- ruby on rails + mysql 开发环境搭建
- CentOS 7.2下安装Mono 5.0
- ROR学习笔记(1):Rails 2快速创建GRUD应用
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 删除链表的倒数第N个节点
- Open3d学习计划—高级篇 2(彩色点云配准)
- Android7.0上某些PopuWindow出现显示位置不正确问题的解决方法
- 有效的括号
- Android PopupWindow实现左侧弹窗效果
- LeetCode. 209. 长度最小的子数组
- 一篇文章就能了解Rxjava
- 二叉树遍历非递归程序 -- 使用栈模拟系统栈
- Android开发之多媒体文件获取工具类实例【音频,视频,图片等】
- 二叉树及leetcode练习题
- 利用递归函数的返回值
- Android DataBinding的官方双向绑定示例
- 整数拆分
- Android Drawerlayout实现侧滑菜单效果
- 分割等和子集