PCA vs t-SNE vs UMAP：可视化数据中的不可见部分

想象一下，试图通过微型望远镜探索星系——这就是机器学习模型处理原始高维数据时的感受。，其中的轴（主成分）使方差最大化。这就像旋转数据集，使其与能够捕捉最大扩散的方向对齐。💡 是的，我们将用一份备忘单、比较视觉效果和精心挑选的资源来加深您的理解。“降维就像给机器装上眼睛——它最终看到的是森林，而不仅仅是树木。它就像 t-SNE 的更智能、更快速的“表亲”。t-SNE 将高维数据映射到二维或三维空间

gis收藏家

300人浏览 · 2025-07-21 16:03:00

gis收藏家 · 2025-07-21 16:03:00 发布

“降维就像给机器装上眼睛——它最终看到的是森林，而不仅仅是树木。”

为什么降维很重要

想象一下，试图通过微型望远镜探索星系——这就是机器学习模型处理原始高维数据时的感受。降维将复杂的高维数据集转换为更简单的形式，帮助人类和机器发现隐藏的模式。

但是有这么多可用的技术，您应该使用哪一种呢？

在此博客中，我们将从以下方面比较 PCA、t-SNE 和 UMAP ：

直觉
工作原理
真实用例
视觉示例
Python 实现
优点、缺点和最佳方案

💡 是的，我们将用一份备忘单、比较视觉效果和精心挑选的资源来加深您的理解。

1.主成分分析（PCA）

直觉

PCA将数据投影到一个新的坐标系中，其中的轴（主成分）使方差最大化。这就像旋转数据集，使其与能够捕捉最大扩散的方向对齐。

当您需要速度、可解释性以及与 ML 模型的兼容性时，请使用 PCA 。

PCA 的工作原理

标准化数据
计算协方差矩阵
查找特征向量和特征值
将数据投影到 top-k 个组件上

真实用例

金融：风险建模、信用评分
基因组学：减少基因表达特征
预处理：聚类或建模之前

Python代码

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris
import seaborn as sns
import matplotlib.pyplot as plt

iris = load_iris()
X = StandardScaler().fit_transform(iris.data)
y = iris.target

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

sns.scatterplot(x=X_pca[:, 0], y=X_pca[:, 1], hue=iris.target_names[y])
plt.title("PCA on Iris Dataset")
plt.show()

优点

非常快
保留全局结构
机器学习友好型

缺点

仅线性
没有聚类洞察

2. t-SNE（t分布随机邻域嵌入）

直觉

t-SNE 将高维数据映射到二维或三维空间，保留局部邻域- 这意味着相似的点保持接近。

使用 t-SNE 进行聚类可视化和探索性分析。

t-SNE 的工作原理

计算高维空间中的相似性
使用 Student-t 分布对低维相似性进行建模
尽量减少两者之间的分歧

真实用例

计算机视觉：可视化 CNN 嵌入
生物信息学：细胞类型聚类
分析：应用行为细分

Python代码

from sklearn.manifold import TSNE

tsne = TSNE(n_components=2, random_state=42, perplexity=30, n_iter=300)
X_tsne = tsne.fit_transform(X)

sns.scatterplot(x=X_tsne[:, 0], y=X_tsne[:, 1], hue=iris.target_names[y])
plt.title("t-SNE on Iris Dataset")
plt.show()

优点

非常适合可视化集群
很好地捕捉局部结构

缺点

计算成本高昂
无逆变换或机器学习兼容性
对超参数敏感

3. UMAP（均匀流形近似和投影）

直觉

UMAP 利用图论和流形学习，保留局部和部分全局结构。它就像 t-SNE 的更智能、更快速的“表亲”。

当您需要速度 + 集群可视化 + 可扩展性时，请使用 UMAP 。

UMAP 的工作原理

在高维空间中构建模糊图
优化低暗空间的布局
以最小的扭曲保留关系

真实用例

NLP：词嵌入可视化
医学成像：特征提取
营销：客户细分

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

java计算机毕业设计教师工作量统计系统基于SpringBoot的高校教师绩效测算与可视化平台教师教学任务与工作量智能汇总系统

永洪数据分析社区

BI是报表？BI是可视化？BI到底是什么？

永洪数据分析社区

AI智能体+BI可视化：1小时极速入门，市场部独力完成分析报告

商务蓝：适合正式报告活力橙：适合创意活动环保绿：适合可持续发展主题自主分析能力：不再依赖IT部门，活动当天即可产出分析结论智能数据处理：AI智能体自动完成80%的数据清洗和分析工作专业可视化：通过PowerBI制作媲美专业数据分析师的报告持续优化：建立可复用的分析模板，后续活动效率更高决策支持：基于数据快速调整营销策略，提升活动ROI现在就可以尝试部署你的第一个智能分析环境，体验从数据到决策的高速