主成分分析

机器学习

1 min read

主成分分析

数据降维

举例: 17个数据指标 -> 3个指标 实现高精度

在特定条件下,降低随机变量的个数,得到一组“不相关”的主变量的过程

降低处理难度 提高处理效率

实现数据可视化

多个变量 -> 综合因子

实现:PCA 主成分分析

核心:在信息损失尽可能的小的时候,降低数据维度

在高维空间中找到一个低维度空间,将高维空间里的点到低维空间的距离视为损失的信息: 要求找一个据各个点最近的低维空间

目标:投影后的不同数据分开尽可能分开(不相关)

-> 方差尽可能大

步骤

  1. 数据预处理 标准化
  2. 计算协方差矩阵的特征向量,及数据在各个特征向量投影后的方差
  3. 根据需求确定降维维度 k
  4. 选取k维特征向量,计算数据在其形成空间形成的投影