【机器学习笔记之七】PCA 的数学原理和可视化效果
PCA 的数学原理和可视化效果
本文结构:
- 什么是 PCA
- 数学原理
- 可视化效果
1. 什么是 PCA
PCA (principal component analysis, 主成分分析) 是机器学习中对数据进行降维的一种方法。
例如,我们有这样的交易数据,它有这几个特征:(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额),从经验可知,“浏览量”和“访客数”,“下单数”和“成交数”之间会具有较强的相关关系。这种情况下,我们保留其中的两个维度就可以保证原有的信息完整。
但是当我们在做降维的时候,会丢失掉一部分信息。
例如, 下面 5 个数据,如果向 x 轴投影,那么左边的两个点会重叠在一起,中间的两个点也会重叠在一起,5 个点结果投影到 x 轴后就剩下 3 个点了,这是一种严重的信息丢失:
所以我们希望找到低维空间的方向上,原数据映射后的方差尽可能的大,也就是意味着数据点会尽量分散开来,这样可以保留更多的信息。
PCA 追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性,它是丢失原始数据信息最少的一种线性降维方式。
PCA的算法步骤:
设有 m 条 n 维数据。 1)将原始数据按列组成 n 行 m 列矩阵 X 2)将 X 的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值 3)求出协方差矩阵 C=1/mXX? 4)求出协方差矩阵的特征值及对应的特征向量 5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 k 行组成矩阵 P 6)Y=PX 即为降维到 k 维后的数据
2. 数学原理
要找到这个低维空间,意味着要确定一组基
如下图,蓝色正交箭头就是新的坐标系的基向量:
我们希望原数据在新坐标系上的投影尽可能分散。
同一个点,在新坐标系下的投影,就是它和两个基的内积:
因为 A 与 B 的内积等于 A⋅B=|A||B|cos(a) B 为基时,|B|=1,则 A⋅B=|A|cos(a),即这个内积等于 A 到 B 的投影长度,也是坐标值。
这种分散程度,可以用数学上的方差来表述:
一个字段的方差可以看做是每个元素与字段均值的差的平方和的均值,即:
在 PCA 第二步已经将每个字段的均值都化为 0 了,因此这里方差可以直接用每个元素的平方和除以元素个数表示:
所以就要最大化数据映射后的方差。
不仅如此,当我们选择第二个投影方向时, 不希望它们之间存在线性相关性的,不然的话必然存在重复表示的信息。
在数学上可以用两个字段的协方差表示其相关性,由于已经让每个字段均值为0,则:
所以希望协方差为 0
,这样两个字段完全独立,那么第二个基只能在与第一个基正交的方向上选择。
于是,我们得到了降维问题的优化目标: 将一组 N 维向量降为 K 维,目标是选择 K 个单位正交基,使得原始数据变换到这组基上后,各字段两两间协方差为0,并且字段的方差则尽可能大(即在正交的约束下,取最大的K个方差)。
假设我们有数据 X,它有 a 和 b 两个字段:
X 的协方差矩阵计算如下:
可以看到这个矩阵对角线上的两个元素分别是两个字段的方差,而其它元素是 a 和 b 的协方差。
于是优化目前等价于将原始数据变换到这组基上后,要使新数据表示的协方差矩阵对角化,并且在对角线上将元素按大小从上到下排列。
即令 P 是这组基按行组成的矩阵,则 Y=PX 就是 X 对 P 做基变换后的数据。(6) 记 Y 的协方差矩阵为 D, 那么 D 与 C 有如下关系:
这样,优化目标变成了寻找一个矩阵 P,满足 PCP? 是一个对角矩阵,即对 C 进行对角化(3)
如何求 P:
C 是一个是对称矩阵,在线性代数书上可以找到“实对称矩阵对角化”的内容。
一个 n 行 n 列的实对称矩阵一定可以找到 n 个单位正交特征向量 e1,e2,⋯,en,
由它们按列组成的矩阵 E=(e1,e2,⋯,en) 可以将 C 对角化:(4)
对角元素为各特征向量对应的特征值。
于是 P=E?,即 P 的每一行都是 C 的一个特征向量。(5)
这样,就得到了 PCA 步骤中的第 3~6 步。
3. 可视化效果
例如下图,我们要将 2 维变成 1 维, 空心圆为数据,得到红箭头为第一主成分方向,蓝箭头为第二主成分方向:
将两个主成分分别作为新的坐标系时,可以看到下图中十字数据的状态:
当我们只看第一主成分时,如下面所示,蓝色点是降维后的数据: 可以看出在 PC1 上的方差很大,而 PC2 上的方差比较小,相对而言,PC2 就可以被忽略,进而实现了降维
我们可以将降维后的数据与原数据进行对比,发现原数据在 PC2 上的信息已经被丢弃
资料: 机器学习 https://stats.stackexchange.com/questions/76906/how-can-i-interpret-what-i-get-out-of-pca http://blog.codinglabs.org/articles/pca-tutorial.html
- 07.移动先行之谁主沉浮----控件之轮流轰炸——布局类控件
- BZOJ 1411&&Vijos 1544 : [ZJOI2009]硬币游戏【递推,快速幂】
- UVa 10341 - Solve It【经典二分,单调性求解】
- UVa 11461 - Square Numbers【数学,暴力】
- BZOJ 3097: Hash Killer I【构造题,思维题】
- Python Selenium设计模式-POM
- BZOJ 1207: [HNOI2004]打鼹鼠【妥妥的n^2爆搜,dp】
- HDU 1711 Number Sequence(KMP裸题,板子题,有坑点)
- BZOJ 2222: [Cqoi2006]猜数游戏【神奇的做法,傻逼题,猜结论】
- BZOJ 1257: [CQOI2007]余数之和sum【神奇的做法,思维题】
- 洛谷 P1019 单词接龙【经典DFS,温习搜索】
- MVCforum 支持多国语言
- BZOJ 1012: [JSOI2008]最大数maxnumber【线段树单点更新求最值,单调队列,多解】
- BZOJ 1303: [CQOI2009]中位数图【前缀和】
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 字符编码与字符串表达式
- 关于批次效应矫正后出现负值
- 在SAP WebIDE里使用Fiori Elements快速开发SAP UI5应用
- SAP Fiori Elements里的Smart Table工作原理解析
- SAP Fiori Elements里Smart Link工作原理介绍
- SAP CDS view自学教程之六:如何在CDS view里消费table function
- 如何构建一个100 Gbit(无丢包)连续数据包记录器[Part3]
- 使用SAP CDS view快速创建一个Fiori应用,管理Service Order
- SAP Fiori Elements里Drop down list的实现原理
- SAP CRM销售订单UI上的字段对应的数据库表存储字段:requested start date和end date
- SAP CDS view自学教程之八:SAP Fiori Elements里不同类型的annotation
- SAP CDS view自学教程之五:如何开发支持Odata navigation的CDS view
- SAP Fiori Elements如何基于domain fixed value创建下拉菜单
- SAP WebClient UI配置决定(configuration)的逻辑介绍
- 潘石屹用Python解决100个问题 | 阶乘之和