简单易学的机器学习算法——主成分分析(PCA)
时间:2022-05-04
本文章向大家介绍简单易学的机器学习算法——主成分分析(PCA),主要内容包括一、数据降维、二、PCA的概念、三、PCA的操作过程、2、具体的例子、四、实验的仿真、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。
一、数据降维
对于现在维数比较多的数据,我们首先需要做的就是对其进行降维操作。降维,简单来说就是说在尽量保证数据本质的前提下将数据中的维数降低。降维的操作可以理解为一种映射关系,例如函数
,即由原来的二维转换成了一维。处理降维的技术有很多种,如前面的SVD奇异值分解,主成分分析(PCA),因子分析(FA),独立成分分析(ICA)等等。
二、PCA的概念
三、PCA的操作过程
1、PCA的操作流程大致如下:
- 去平均值,即每一位特征减去各自的平均值
- 计算协方差矩阵
- 计算协方差矩阵的特征值与特征向量
- 对特征值从大到小排序
- 保留最大的k个特征向量
- 将数据转换到k个特征向量构建的新空间中
2、具体的例子
假设二维数据为:
- 取平均值
我们计算每一维特征的平均值,并去除平均值,我们计算出均值为
去除均值后的矩阵为
- 计算协方差矩阵
- 计算特征值与特征向量
其中,特征值为
特征向量为
- 对特征值进行排序,显然就两个特征值
- 选择最大的那个特征值对应的特征向量
- 转换到新的空间
四、实验的仿真
我们队一个数据集进行了测试:
MATLAB实验代码如下:
主程序
%% pca
dataSet = load('testSet.txt');%导入数据
% pca
[FinalData, reconData] = PCA(dataSet, 1);
%% 作图
hold on
plot(dataSet(:,1), dataSet(:,2), '.');
plot(reconData(:,1), reconData(:,2), '.r');
hold off
PCA函数段
function [ FinalData,reconData ] = PCA( dataSet, k )
[m,n] = size(dataSet);
%% 去除平均值
%取平均值
dataSetMean = mean(dataSet);
%减去平均值
dataSetAdjust = zeros(m,n);
for i = 1 : m
dataSetAdjust(i , :) = dataSet(i , :) - dataSetMean;
end
%% 计算协方差矩阵
dataCov = cov(dataSetAdjust);
%% 计算协方差矩阵的特征值与特征向量
[V, D] = eig(dataCov);
% 将特征值矩阵转换成向量
d = zeros(1, n);
for i = 1:n
d(1,i) = D(i,i);
end
%% 对特征值排序
[maxD, index] = sort(d);
%% 选取前k个最大的特征值
% maxD_k = maxD(1, (n-k+1):n);
index_k = index(1, (n-k+1):n);
% 对应的特征向量
V_k = zeros(n,k);
for i = 1:k
V_k(:,i) = V(:,index_k(1,i));
end
%% 转换到新的空间
FinalData = dataSetAdjust*V_k;
% 在原图中找到这些点
reconData = FinalData * V_k';
for i = 1 : m
reconData(i , :) = reconData(i , :) + dataSetMean;
end
end
参考文献
对于本文有任何问题,欢迎邮件或者微博私信,具体联系方式见博客左侧。
- go interface
- 使用Spark MLlib给豆瓣用户推荐电影
- hadoop,hbase,hive,zookeeper版本整合兼容性最全,最详细说明【适用于任何版本】
- centos7:SSH公钥无密码认证
- Spark机器学习API之特征处理
- hadoop入门:第十章hadoop工具
- hive文件存储格式:SequenceFile系统总结
- openshift镜像构建-s2i环境变量设置
- Go Channel 源码剖析
- 再谈谈获取 goroutine id 的方法
- Golang方法和接口
- Go队列和堆栈
- openstack【juno】入门高级篇:为何你的实例ping不通外网【详述】
- Java 中的并发
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 工作中常用的十款idea插件
- Linux系统rsync数据同步服务介绍
- 清空表与删除表mysql
- Java虚拟机-JVM组成结构详解
- 解决Chunkize warning while installing gensim问题
- numpy的random模块
- MySQL如何快速生成千万数据量?
- Linux系统rsync实战操作
- SQL线程状态分析:processlist
- 解决Fatal error in launcher: Unable to create process using '"'
- 责任链设计模式:老哥用程序生孩子
- LAMP架构应用实战—Apache服务介绍与安装01
- Excel合并
- 自定义异常为什么性能差,我来告诉你
- GitHub比较火的springBoot实战项目