数据集上的主成分分析的两种导出方法

Jun, 2023

数据集上的主成分分析的两种导出方法

Two derivations of Principal Component Analysis on datasets of distributions

Vlad Niculae

TL;DR本文提出了一种针对数据集不是点而是分布的主成分分析方法，可以从方差最大化原则和重构误差最小化的角度获得闭合解。

Abstract

In this brief note, we formulate principal component analysis (PCA) over datasets consisting not of points but of distributions, character

principal component analysis datasets distributions location covariance

发现论文，激发创造

改进的分布式主成分分析

本文研究具有多台服务器的分布式计算环境，通过开发 PCA 算法来处理点集的低维子空间问题，进而解决异常检测以及聚类等计算问题，提出的新算法显著降低了 $k$-means 聚类与相关问题的计算以及通讯成本，并且经过实验验证，在解决方案质量方面具有忽略不计的退化。

Aug, 2014

稀疏主成分分析

使用稀疏 PCA 算法，选择最大方差的坐标子集，估计特征向量并在原始基础上重新表达，在适当的稀疏性假设下，实现一元模型的一致性估计。

Jan, 2009

主特征空间的分布式估计

本文提出了一种分布式 PCA 算法，并研究了其结果的偏差和方差，证明了在数据分布具有对称创新的情况下，经验顶部特征空间是没有偏差的，且在机器数量不过多时，分布式 PCA 算法表现与整体聚合 PCA 算法相当。

Feb, 2017

分布式随机主成分分析的通信效率算法

在统计分布设置中，研究了 PCA 的基本问题，介绍了一种在计算效率和估计误差方面都优于局部 ERM 解决方案的算法，通过进行简单的校正步骤来消除误差并提供一种估计器，还介绍了一种使用分布式矩阵向量乘法的迭代分布式算法，提供在广泛的参数范围内通信轮次的显着加速。

Feb, 2017

剩余分量分析：在线性高斯模型中推广 PCA 以获得更灵活的推断能力

本文提出了一种新的基于残差方差的概率主成分分析 (PPCA) 模型 —— 残差成分分析 (RCA)，并探讨了由此框架产生的新算法，其中包括将高斯密度的协方差分解为低秩与稀疏逆两个部分的算法。作者在蛋白质信号网络恢复，基因表达时间序列数据集分析以及基于三维点云数据恢复人类骨架方面阐述了该模型的应用。

Jun, 2012

差分隐私主成分的近似最优算法

本文探讨了不同 ially private PCA 方法的理论和实证性能，并提出了一种明确优化输出效用的新方法。我们发现其样本复杂度与现有程序的不同之处在于其与数据维度的缩放，而且在实际数据中，该方法与现有方法相比具有较大的性能差距。

Jul, 2012

用主成分分析估计数据的内在维度

本文介绍了一种基于 PCA 的新方法，用于估计具有非线性结构的数据的内在维数，该方法利用整个数据集估计其内在维数，并方便增量学习。该方法使用数据的最小覆盖来处理数据集的非线性结构，并通过检查所有小邻域区域的数据方差来确定估计结果。实验结果表明，该方法可以过滤数据中的噪声，并在邻域区域大小增加时收敛到稳定的估计值。

Feb, 2010

主成分分析教程

探究主成分分析的背后真相及数学原理，为所有级别的读者提供更好的理解和应用此技术的时间、方法和动机。

Apr, 2014

通过测地线下降实现分布鲁棒公平主成分

本文提出一种在主成分分析中内在于目标函数中的公正准则的分布式稳健优化问题，通过采用超越最小二乘意义的子群重构误差之间的重构误差差异，平衡了总体重建误差和子群之间的重建误差差异，以及实验证明该方法较其他现有方法有明显优势。

Feb, 2022

加权主成分分析：一种加权协方差特征值分解方法

提出一种新的基于加权方差协方差矩阵的双谱分解方法，旨在在具有加权和 / 或缺失数据问题的情况下，检索给定数量的正交主成分，该方法通过将主成分拟合到数据并进行分解，从而检索主系数。通过在实际情况和模拟情况下进行测试，结果表明该方法能够在数据集中识别最显著的模式，并且可以使用此方法将 Sloan Digital Sky Survey 类星体光谱从测量波长外推至更短和更长波长。同时该算法的实现速度快且灵活。

Dec, 2014