大规模高维数据的单次 PCA

IJCAIApr, 2017

Single-Pass PCA of Large High-Dimensional Data

Wenjian Yu, Yu Gu, Jian Li, Shenghua Liu, Yaohang Li

TL;DR本文提出了一种基于单次随机算法的主成分分析法，适用于处理极大和高维度的数据，并且具有小的计算误差和低的存储成本。

Abstract

principal component analysis (PCA) is a fundamental dimension reduction tool in statistics and machine learning. For large and high-dimensional d

发现论文，激发创造

本文介绍了一种基于随机方法的主要成分分析算法，该算法适用于无法存储在内存中的大型数据集，并通过多个数值实例展示了其性能。

Jul, 2010

本文提出一种有效的算法，用于对任意规模的矩阵进行低秩逼近，可以在保证精度的同时大大提高计算效率，实验结果证明了算法的可行性。

Sep, 2008

使用稀疏 PCA 算法，选择最大方差的坐标子集，估计特征向量并在原始基础上重新表达，在适当的稀疏性假设下，实现一元模型的一致性估计。

Jan, 2009

研究 PCA 在高维，低样本大小的情况下的渐近行为，发现在一些充分的条件下，估计的 PC 方向是一致的，其他的方向强不一致，而这些条件在主定理中指定。

Nov, 2009

本研究提出了一种基于流处理的、使用有限内存的主成分分析算法，它可以在高维情况下有效地运行，并且在样本复杂度上比相关算法更好。

Jun, 2013

本文针对特征数比样本个数大的情况，提出了一种新的迭代阈值方法，用于估计主成分空间，这种方法在高维稀疏场景下实现了主成分空间和主要特征向量的一致恢复和最优恢复。模拟实例也证明了其具有竞争性的性能。

Dec, 2011

本文介绍了一种名为门限法的难以置信的精简主方向载荷方法，并将其与半定规划松弛相结合，以改进主成分分析的解释性。

Jun, 2020

本文介绍了针对 MATLAB 的基于随机化方法的低秩逼近算法，通过多个测试发现这些算法在准确性、速度和内存使用、易用性、可并行性和可靠性等方面都优于或至少与经典方法相当，但对于估计谱范数和计算最小奇异值及对应的奇异向量依然有待提高。

Dec, 2014

本文介绍了一种快速的块升算法来实现稀疏主成分分析，该方法可以更好地解决特征数量很多的数据集的问题，并使用亿万级文档和成千上万个特征的文本语料库的实验结果证明了 Sparse PCA 对于组织大量文本数据具有很好的效果。

Oct, 2012

本研究主要研究经典问题 PCA 中的异常值问题，提出了近线性时间的近似最优解鲁棒 PCA 算法以及单遍流式鲁棒 PCA 算法，并进行了相关的理论分析。

May, 2023