机器学习——PCA降维

$C= \begin{bmatrix} \text{cov}(x,x) & \text{cov}(y,x) & \text{cov}(z,x) \\ \text{cov}(x,y) & \text{cov}(y,y) & \text{cov}(z,y) \\ \text{cov}(x,z) & \text{cov}(y,z) & \text{cov}(z,z) \end{bmatrix}$

协方差矩阵
n个特征，m个样本。n行m列：

$X= \left[ \begin{matrix} X_{1} & \cdots & x_{1} \\ \vdots & \ddots & \vdots \\ X_{n} & \cdots & x_{n} \end{matrix} \right]=\left[ \begin{matrix} x_{1}^{1} & \cdots & x_{1}^{m} \\ \vdots & \ddots & \vdots \\ x_{n}^{1} & \cdots & x_{n}^{m} \end{matrix} \right]$

n行m列乘m行n列->n行n列：

$XX_{_T}=\sum =\left[ \begin{matrix} \sum_{11} & \cdots & \sum_{1n} \\ \vdots & \ddots & \vdots \\ \sum_{n1} & \cdots & \sum_{nn} \end{matrix} \right]$

通过数据集的协方差矩阵及其特征值分析，我们可以得到协方差矩阵的特征向量和特征值，我们需要保留k个维度的特征就选取最大的k个特征值。

四、算法应用

4.1人脸识别降维

1.查看原图

from sklearn.datasets import fetch_lfw_people # 导入fetch_lfw_people数据集模块 from sklearn.decomposition import PCA # 导入PCA（主成分分析）模块 import matplotlib.pyplot as plt # 导入绘图模块 import numpy as np # 导入numpy库 # 使用fetch_lfw_people函数加载数据集，要求每个人至少有60张图片 # faces = fetch_lfw_people(min_faces_per_person=60) # print(faces.data.shape) faces = fetch_lfw_people(data_home="D:\\Download\\", download_if_missing=False, min_faces_per_person=60) # 从本地目录加载数据集 X = faces.data # 获取图像数据 # print(faces.data.shape) # 输出(1348,2914)，表示共有1348张图像，每张图像有2914个特征 # print(faces.images.shape) # 输出(1348, 62, 47)，表示共有1348张图像，每张图像的尺寸为62x47 # 创建子图，3行8列，设置图像大小和不显示坐标轴 fig, axes = plt.subplots(3, 8, figsize=(8, 4), subplot_kw={"xticks": [], "yticks": []}) # 对axes对象进行处理 for i, ax in enumerate(axes.flat): # 遍历展平后的axes对象 ax.imshow(faces.images[i, :, :], cmap="gray") # 在当前子图上显示灰度图像 plt.show() # 显示图形

2.进行降维后的图像

pca = PCA(150).fit(X) # 使用PCA对数据集X进行拟合，保留150个主成分 V = pca.components_ # 获取PCA模型的主成分（特征向量） V.shape # 输出主成分矩阵的形状，应为(150, 2914)，表示150个主成分每个有2914个特征 # 创建子图，3行8列，设置图像大小和不显示坐标轴 fig, axes = plt.subplots(3, 8, figsize=(8, 4), subplot_kw={"xticks": [], "yticks": []}) # 在子图上显示每个主成分（特征向量） for i, ax in enumerate(axes.flat): ax.imshow(V[i, :].reshape(62, 47), cmap="gray") # 将展平的主成分重塑为62x47的图像并显示灰度图 plt.show() # 显示图形

使用PCA对人脸数据集进行降维处理，并展示了前150个主成分（特征向量）的灰度图像。

3.逆变换还原图像

from sklearn.datasets import fetch_lfw_people from sklearn.decomposition import PCA import matplotlib.pyplot as plt faces = fetch_lfw_people(data_home="D:\\Download\\", download_if_missing=False, min_faces_per_person=60) X = faces.data pca = PCA(n_components=150) # 使用PCA进行降维，保留150个主成分 X_dr = pca.fit_transform(X) # 对数据进行拟合和降维 X_inverse = pca.inverse_transform(X_dr) # 对降维后的数据进行逆变换，恢复原始维度 # 创建子图，2行10列，设置图像大小和不显示坐标轴 fig, ax = plt.subplots(2, 10, figsize=(10, 2.5), subplot_kw={"xticks": [], "yticks": []}) # 在子图中显示原始图像和逆变换后的图像 for i in range(10): ax[0, i].imshow(faces.images[i, :, :], cmap="binary_r") # 显示原始图像 ax[1, i].imshow(X_inverse[i].reshape(62, 47), cmap="binary_r") # 显示逆变换后的图像 plt.tight_layout() # 调整子图布局，使其更紧凑 plt.show() # 显示图形

结论：

可以明显看出，这两组数据可视化后，由降维后再通过inverse_transform转换回原维度的数据画出的图像和原数据画的图像大致相似，但原数据的图像明显更加清晰。这说明inverse_transform并没有实现数据的完全逆转。这是因为，在降维的时候，部分信息已经被舍弃了，X_dr中往往不会包含原数据100%的信息，所以在逆转的时候，即便维度升高，原数据中已经被舍弃的信息也不可能再回来了。所以，降维不是完全可逆的。Inverse_transform的功能，是基于X_dr中的数据进行升维，将数据重新映射到原数据所在的特征空间中，而并非恢复所有原有的数据。但同时，我们也可以看出，降维到300以后的数据，的确保留了原数据的大部分信息，所以图像看起来，才会和原数据高度相似，只是稍稍模糊罢了。

五、总结

5.1PCA算法的优点

5.2PCA算法的缺点

5.3PCA的应用:

5.4PCA的局限性:

-线性假设: PCA基于线性变换，可能无法很好地处理非线性关系

-敏感性: 对异常值敏感，可能受到极端值的影响。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/117351.html

机器学习——PCA降维

一、算法概述

1.1什么是降维

1.2为什么要降维

1.3降维实现原理

1.4降维的方法

1.4.1主成分分析（PrincipalComponentAnalysis,PCA）

1.4.2因子分析（Factor Analysis）

1.4.3独立成分分析（Independent Component Analysis, ICA）

二、主成分分析法（PCA）

2.1主成分分析(PCA)基本思路

2.2PCA算法的实现步骤

2.3协方差矩阵