Jan, 2020

用于高速流式主成分分析的分布式随机算法

TL;DR本文探讨了在流式数据下,从独立同分布的数据采样中估算协方差矩阵的主特征向量的问题,并提出和分析了一种分布式变体方案 D-Krasulina,该方案可以在多个处理节点上分布计算负载以跟上高数据流率。通过对该方案的分析表明,在适当的条件下,D-Krasulina 以次序优化的方式收敛于主特征向量,即在接收到所有节点的 M 个采样后,其估算误差可以是 O (1/M)。最后,通过对合成和真实世界数据的实验验证了 D-Krasulina 和 DM-Krasulina 在高速数据流场景中的收敛行为。