主成分分析
数据降维
举例: 17个数据指标 -> 3个指标 实现高精度
在特定条件下,降低随机变量的个数,得到一组“不相关”的主变量的过程
降低处理难度 提高处理效率
实现数据可视化
多个变量 -> 综合因子
实现:PCA 主成分分析
核心:在信息损失尽可能的小的时候,降低数据维度
在高维空间中找到一个低维度空间,将高维空间里的点到低维空间的距离视为损失的信息: 要求找一个据各个点最近的低维空间
目标:投影后的不同数据分开尽可能分开(不相关)
-> 方差尽可能大
步骤
- 数据预处理 标准化
- 计算协方差矩阵的特征向量,及数据在各个特征向量投影后的方差
- 根据需求确定降维维度 k
- 选取k维特征向量,计算数据在其形成空间形成的投影