流式 k-PCA 的第一个高效收敛:全局无间隙,近乎最优速率
该研究提出了一个对流式主成分分析(PCA)有改进保证的线性时间算法,该算法可以在常数精度下估计协方差矩阵的前几个特征向量。该算法通过一种新颖的 Oja 算法分析方法实现。
Feb, 2016
本文针对主成分分析问题在流式随机场景中进行探讨和研究,给出了针对性的随机梯度下降算法,提供了最新的无需基于非平凡特征值间隙假设的收敛保证,并改进了在该假设下的优化算法保证效果。
Sep, 2015
稀疏主成分分析 (Sparse Principal Component Analysis, PCA) 的问题,当比率 $d/n ightarrow c > 0$ 时进行研究。针对在线优化问题,我们提出一种简单的算法,通过阈值和重新归一化 Oja 算法的输出 (即 Oja 向量),获得接近最优的误差率。这是非常令人惊讶的,因为没有阈值时,Oja 向量存在很大的误差。我们的分析主要围绕未归一化 Oja 向量的元素进行界定,其中涉及到独立随机矩阵乘积在随机初始向量上的投影,这是非常复杂且新颖的,因为对 Oja 算法和矩阵乘积的先前分析是在限制了总体协方差矩阵的迹的情况下进行的,而在我们的情境中,这个量可以达到 $n$ 的大小。
Feb, 2024
研究了数据点从无法分解的 Markov 链中采样的流式主成分分析(PCA)问题,提出了一个新的算法并证明了其收敛速率,解决了使用 MCMC 算法从链的稳态分布中采样的问题。
May, 2023
本研究针对在已知分布均值为零和未知协方差的情况下,使用增量算法以 O (d) 空间复杂度计算顶部特征向量,对 Krasulina 和 Oja 的两种传统方案进行了有限样本收敛率分析。
Jan, 2015
本文探讨了在流式数据下,从独立同分布的数据采样中估算协方差矩阵的主特征向量的问题,并提出和分析了一种分布式变体方案 D-Krasulina,该方案可以在多个处理节点上分布计算负载以跟上高数据流率。通过对该方案的分析表明,在适当的条件下,D-Krasulina 以次序优化的方式收敛于主特征向量,即在接收到所有节点的 M 个采样后,其估算误差可以是 O (1/M)。最后,通过对合成和真实世界数据的实验验证了 D-Krasulina 和 DM-Krasulina 在高速数据流场景中的收敛行为。
Jan, 2020
我们提出了矩阵 Krasulina 算法,通过将经典的 Krasulina 方法从向量推广到矩阵情况,实现了在线 k-PCA,并展示了算法在自然适应数据低秩性,并收敛至地面真实主子空间,表明在本质上的低秩数据问题上,仅仅采用 SGD 变体就足以实现指数收敛。
Apr, 2019
本文提出采用扩散近似工具研究 Oja 迭代的动态特性,它是一种用于数据流中的在线随机梯度下降方法。我们使用扩散近似和弱收敛工具将 Oja 迭代特征为三个阶段,进而为其提供有限样本误差界限。
Aug, 2018
本论文研究基于高维独立的高斯观测下,对总体协方差矩阵中的主要特征向量进行估计的问题。研究者们提出了一种基于坐标选择方案结合 PCA 的主要特征向量估计器,并证明了该估计器在稀疏条件下可以达到最优收敛速率。同时,也证明在某些情形下,通常的 PCA 可以达到最小最大收敛速率。
Feb, 2012