【机器学习】PCA
目录
PCA
PCA 就是找出数据最主要的方面,用数据里最主要的方面来代替原始数据。
PCA 是最重要的降维方法之一,在数据压缩、消除冗余和数据噪音消除等领域都有广泛的应用。
1. PCA最大可分性的思想
最大可分性: 样本点在超平面上的投影尽可能的分开
2. 基变换(线性变换)
欲获得原始数据新的表示空间,最简单方法是对原始数据进行基变换(线性变换)。
3. 方差
如何选择一个方向或者基才是最优的?基于PCA最大可分思想,我们要找的方向是降维后损失最小,可以理解为投影后的数据尽可能分得开,而分散程度可以用数学上的方差来表示,因为方差越大数据也就越分散。
4. 协方差
在高维变换中,我们希望基变换后选择的各个方向(或者基)是不相关的,这样才能表示更多的信息。数学上使用协方差表示相关性:
\[
Cov(a,b) = \frac{1}{m} \sum_{i=1}^{m}a_ib_i
\]
如果 \(Cov(a,b)=0\) ,则表示两个字段完全独立,这也是我们的优化目标。
5. 协方差矩阵
我们想达到的目标(\(Cov(a,b)=0\)) 与 字段内方差 及 字段间协方差 有着密切的关系。假设只有 \(a, b\) 两个字段,按行组成 \(X\) ,求取协方差矩阵:
可见,协方差矩阵是一个对称的矩阵,对角线是各个维度的方差(字段内方差),而其它元素是字段间协方差,两者被统一到了一个矩阵之中。
6. 协方差矩阵对角化
我们的目标是使 \(Cov(a,b)=0\) ,由协方差矩阵可知我们的优化目标 \(C=\frac{1}{m}XX^T\) 等价于协方差矩阵对角化(除对角线以外的其它元素都为0,并且对角线将元素按照大小从上到下排列)。
推导:
7. PCA算法流程
输入: \(n\) 维样本集 \(X = (x_1, x_2, ... ,X_m)\),要降维到的维数 \(n^{'}\)
输出: 降维后的样本集 \(Y\)
算法:
1)对所有样本进行中心化 \(x_i = x_i -\frac{1}{m}\sum_{j=1}^mx_j\)
2)计算样本的协方差矩阵 \(C=\frac{1}{m}XX^T\)
3)求出协方差矩阵的特征值以及对应的特征向量
4)将特征向量按对应特征值大小从上到下排列成矩阵,取前 \(K\) 行组成矩阵 \(P\)
5)\(Y=PX\) 即为原始样本降维到 \(K\) 维后的数据矩阵
代码:
"""
这里假设原始数据集为矩阵 dataMat,其中每一行代表一个样本,每一列代表同一个特征(与上面的介绍稍有不同,上 面是每一列代表一个样本,每一行代表同一个特征)。
"""
import numpy as np
################################
# (1)零均值化
################################
def zeroMean(dataMat):
meanVal=np.mean(dataMat,axis=0) #按列求均值(axis=0),即求各个特征的均值
newData=dataMat-meanVal
return newData,meanVal # newData是零均值化后的数据,meanVal是每个特征的均值
################################
# (2)求协方差矩阵
# 若rowvar=0,说明传入的数据一行代表一个样本;
# 若非0,说明传入的数据一列代表一个样本。
################################
newData,meanVal=zeroMean(dataMat)
covMat=np.cov(newData,rowvar=0)
################################
# (3)求特征值和特征矩阵
# eigVals存放特征值,行向量
# eigVects存放特征向量,每一列带别一个特征向量
# 特征值和特征向量是一一对应的
################################
eigVals,eigVects=np.linalg.eig(np.mat(covMat))
################################
# (4)保留比较大的前n个特征向量
# 第三步得到了特征值向量eigVals,假设里面有m个特征值,我们可以对其排序,排在前面的n个特征值所对应的特征 # 向量就是我们要保留的,它们组成了新的特征空间的一组基n_eigVect
################################
eigValIndice=np.argsort(eigVals) #对特征值从小到大排序
n_eigValIndice=eigValIndice[-1:-(n+1):-1] #最大的n个特征值的下标,首先argsort对特征值是从小到大排序的,那么最大的n个特征值就排在后面,所以eigValIndice[-1:-(n+1):-1]就取出这个n个特征值对应的下标(python里面,list[a:b:c]代表从下标a开始到b,步长为c)
n_eigVect=eigVects[:,n_eigValIndice] #最大的n个特征值对应的特征向量
################################
# (5)获取降维后的数据
# 将零均值化后的数据乘以n_eigVect就可以得到降维后的数据
################################
lowDDataMat=newData*n_eigVect #低维特征空间的数据
reconMat=(lowDDataMat*n_eigVect.T)+meanVal #重构数据
8. PCA算法总结
优点:
1) 仅仅依靠方差衡量信息量,不受数据集以外的因素影响
2)各主成分之间相互正交,可消除原始数据成分间的相互影响的因素
3)计算方法简单,主要运用特征值分解
缺点:
1)主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强
2)方差小的主成分也有可能含有对样本差异的重要信息,由于降维丢弃可能会对后续数据处理有影响
原文地址:https://www.cnblogs.com/xxxxxxxxx/p/11594647.html
- Golang语言之defer-再议
- HDUOJ------Lovekey
- 转-带交互的telnet小工具,golang版
- 需要了解的pssh(r11笔记第28天)
- 二分查找算法基本思想
- Flyod 算法(两两之间的最短路径)
- HDUOJ-4104 Discount
- HDUOJ-----1085Holding Bin-Laden Captive!
- HDUOJ-----1098 Ignatius's puzzle
- 转--shell脚本备份mysql数据库
- NYOJ——————数的长度(斯特林公式的应用)
- 关于ssh命令的几个使用小技巧(r11笔记第27天)
- Golang语言社区--消息触发服务器启动基础模块分享
- NYOJ------汉诺塔(一)
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 设计模式总篇:从为什么需要原则到实际落地(附知识图谱)
- 一文入门DNS?从访问GitHub开始
- 没内鬼,来点干货!SQL优化和诊断
- 好像很厉害的生成器!一秒钟搞定一个项目
- 【一起学系列】之策略模式:好多鸭子啊
- 没内鬼,来点干货!volatile和synchronized
- 【一起学系列】之观察者模式:我没有在监控你啊
- Celery 4 初体验及踩坑
- MySQL 最佳实践:gh-ost 工具使用详解
- 如何将 Hexo 博客部署到云开发静态网站托管
- WordPress 静态化部署到云开发网站托管
- 如何用云应用快速部署一个nodebb的开源论坛
- 【一起学系列】之装饰器模式:不改代码增强功能?
- Hello!GitHub 好用好玩值得收藏的开源项目集合~
- 【一起学系列】之工厂模式:产品?产品族?