python数据分析5 数据转换
时间:2019-12-12
本文章向大家介绍python数据分析5 数据转换,主要包括python数据分析5 数据转换使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
1数据转换
数据转换时数据准备的重要环节,它通过数据平滑,数据聚集,数据概化,规范化等凡是将数据转换成适用于数据挖掘的形式
1.1 数据平滑
去除数据中的噪声,将连续数据离散化。这里可以采用分箱、聚类和回归的方式进行数据平滑
1,2 数据聚集
对数据进行汇总,在sql中也有一些聚集函数比如Max求最大值
1.3 数据概化
将数据由较低的概念抽象成较高的概念。比如重庆成都概化为中国
1.4 数据规范化
将原来的数值映射到新的特定区域中。比如最大规范化
1.5 属性构造
通过属性与属性的连接构造新的属性,其实就是特征工程。比如数据表中统计每个人的英语、语文和数学成绩,你可以构造一个“总和”这个属性,来作为新属性
2 规范化方法
(1) Min-max规范化
将原始数据变换到[0,1]区间
新数值=(原数值-极小值)/极大值-极小值
(2)Z-Score规范化
比如A同学满分150,B同学满分100,但是两者都得了60分。
数值=(原数值-均值)/ 标准差。
(3)小数制定规范化
通过移动小数点的位置来进行规范化,小数点移动多少位取决于属性A的取值中的最大绝对值。
3 Scikit-Learn使用
(1)官网
(2)Min-max规范化使用
1 # coding:utf-8 2 from sklearn import preprocessing 3 import numpy as np 4 # 初始化数据,每一行表示一个样本,每一列表示一个特征 5 x = np.array([[ 0., -4., 1.], 6 [ 20., 1., 2.], 7 [ 0., 1., -1.]]) 8 # 将数据进行[0,1]规范化 9 min_max_scaler = preprocessing.MinMaxScaler() 10 minmax_x = min_max_scaler.fit_transform(x) 11 print(minmax_x)
(3)Z_Score使用
1 from sklearn import preprocessing 2 import numpy as np 3 # 初始化数据 4 x = np.array([[ 0., -4., 1.], 5 [ 20., 1., 2.], 6 [ 0., 1., -1.]]) 7 # 将数据进行Z-Score规范化 8 scaled_x = preprocessing.scale(x) 9 print(scaled_x)
(4)小数点规范化
1 # coding:utf-8 2 from sklearn import preprocessing 3 import numpy as np 4 # 初始化数据 5 x = np.array([[ 0., -4., 1.], 6 [ 20., 1., 2.], 7 [ 0., 1., -1.]]) 8 # 标准差标准化 9 j = np.ceil(np.log10(np.max(abs(x)))) 10 scaled_x = x/(10**j) 11 print(scaled_x)
4 思维导图
5 总结
为了寻找数据的规律,需要将其规范化。那么目前知道有三种方法,分别为Min-max规范化,Z-Score规范化,小数制定规定化等。
原文地址:https://www.cnblogs.com/lanjianhappy/p/12028120.html
- Laravel 4 小技巧两则
- [译]Laravel 5.0 之 ValidatesWhenResolved
- Python机器学习的练习七:K-Means聚类和主成分分析
- [译]Laravel 5.0 之方法注入
- [译]Laravel 5.0 之 Middleware (Filter-Style)
- [译]Laravel 5.0 之目录结构与命名空间
- Python机器学习的练习六:支持向量机
- [译]Laravel 5.0 之路由缓存
- [译]Laravel 5.0 之 表单验证类 (Form Requests)
- 如何在Python中保存ARIMA时间序列预测模型
- Laravel 5.0 发布, 海量新特性!!
- Python中的白噪声时间训练
- Python机器学习的练习五:神经网络
- 在Python中如何差分时间序列数据集
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 震惊! GC原来是这个样子.
- 2020-09-21:已知最大公约数和最小公倍数,如何判断这两个数是否存在?
- 如何设计一个牛逼的API接口(技术创作101训练营)
- shell 运算符; 判断中 if -a 与运算 -o或运算
- Linux crond 计划任务添加
- linux 环境下安装使用 git
- linux下禁止root ssh远程登录和添加允许新用户登录ssh
- Python 常见数据结构整理
- mapreduce的二次排序-分区分组
- GATK RNA-Seq Snps Indel 分析
- 【技术创作101训练营】腾讯云主机上部署 FRP+Teamviewer 穿透内网进行远程运维
- 图像处理笔记(7)---- OpenCV 绘制无填充矩形
- 图像处理笔记(8)---- OpenCV 获取追踪对象的HSV值
- (数据科学学习手札95)elyra——jupyter lab平台最强插件集
- Python 序列化/反序列化自定义类型