用于高速流式主成分分析的分布式随机算法

Jan, 2020

用于高速流式主成分分析的分布式随机算法

Distributed Stochastic Algorithms for High-rate Streaming Principal Component Analysis

Haroon Raja, Waheed U. Bajwa

TL;DR本文探讨了在流式数据下，从独立同分布的数据采样中估算协方差矩阵的主特征向量的问题，并提出和分析了一种分布式变体方案 D-Krasulina，该方案可以在多个处理节点上分布计算负载以跟上高数据流率。通过对该方案的分析表明，在适当的条件下，D-Krasulina 以次序优化的方式收敛于主特征向量，即在接收到所有节点的 M 个采样后，其估算误差可以是 O (1/M)。最后，通过对合成和真实世界数据的实验验证了 D-Krasulina 和 DM-Krasulina 在高速数据流场景中的收敛行为。

Abstract

This paper considers the problem of estimating the principal eigenvector of a covariance matrix from independent and identically distributed data samples in streaming settings. The streaming rate of data in many contemporary applications can be high enough that a single processor canno

eigenvector estimation covariance matrix streaming data distributed computing krasulina's method

发现论文，激发创造

主特征空间的分布式估计

本文提出了一种分布式 PCA 算法，并研究了其结果的偏差和方差，证明了在数据分布具有对称创新的情况下，经验顶部特征空间是没有偏差的，且在机器数量不过多时，分布式 PCA 算法表现与整体聚合 PCA 算法相当。

Feb, 2017

分布式随机主成分分析的通信效率算法

在统计分布设置中，研究了 PCA 的基本问题，介绍了一种在计算效率和估计误差方面都优于局部 ERM 解决方案的算法，通过进行简单的校正步骤来消除误差并提供一种估计器，还介绍了一种使用分布式矩阵向量乘法的迭代分布式算法，提供在广泛的参数范围内通信轮次的显着加速。

Feb, 2017

用于马尔可夫数据的流式主成分分析

研究了数据点从无法分解的 Markov 链中采样的流式主成分分析（PCA）问题，提出了一个新的算法并证明了其收敛速率，解决了使用 MCMC 算法从链的稳态分布中采样的问题。

May, 2023

分布式和流式模型中的最优主成分分析

该论文提供了改进的分布式 PCA 和流式 PCA 算法，旨在找到矩阵的最佳秩 - k 逼近。

Apr, 2015

流式 PCA：匹配矩阵伯恩斯坦和 Oja 算法的几乎最优有限样本保证

该研究提出了一个对流式主成分分析（PCA）有改进保证的线性时间算法，该算法可以在常数精度下估计协方差矩阵的前几个特征向量。该算法通过一种新颖的 Oja 算法分析方法实现。

Feb, 2016

改进的分布式主成分分析

本文研究具有多台服务器的分布式计算环境，通过开发 PCA 算法来处理点集的低维子空间问题，进而解决异常检测以及聚类等计算问题，提出的新算法显著降低了 $k$-means 聚类与相关问题的计算以及通讯成本，并且经过实验验证，在解决方案质量方面具有忽略不计的退化。

Aug, 2014

流式 k-PCA 的第一个高效收敛：全局无间隙，近乎最优速率

本研究研究了流式主成分分析，并提出了 Oja 算法的全局收敛，同时提供了一个修改后的变体 Oja++，可以比 Oja 更快地运行。

Jul, 2016

高维数据的增强稀疏主成分分析

本论文研究基于高维独立的高斯观测下，对总体协方差矩阵中的主要特征向量进行估计的问题。研究者们提出了一种基于坐标选择方案结合 PCA 的主要特征向量估计器，并证明了该估计器在稀疏条件下可以达到最优收敛速率。同时，也证明在某些情形下，通常的 PCA 可以达到最小最大收敛速率。

Feb, 2012

稀疏主成分估计中的统计和计算折衷

通过研究计算复杂性理论，发现在满足一定限制的协方差集中条件下存在有效的样本大小范围，在此范围内无法有随机多项式时间算法达到最佳极小风险率；对著名的半定松弛估计方法的理论性能进行研究，揭示了统计效率和计算效率之间微妙的相互作用，此方法为多维数据稀疏主成分分析提供了一种解决方案。

Aug, 2014

随机梯度下降法在 PCA 中的收敛性

本文针对主成分分析问题在流式随机场景中进行探讨和研究，给出了针对性的随机梯度下降算法，提供了最新的无需基于非平凡特征值间隙假设的收敛保证，并改进了在该假设下的优化算法保证效果。

Sep, 2015