Oct, 2023

公平的流式主成分分析:统计和算法视角

TL;DR公平主成分分析(Fair Principal Component Analysis,fair PCA)是一个问题设置,旨在在执行主成分分析的同时,使得所得到的表示在条件敏感属性的情况下相互匹配的分布公平。然而,现有的公平主成分分析方法存在两个主要问题:从理论上讲,公平主成分分析在可学习性方面没有统计学基础;从实际上讲,有限的内存限制了现有方法的使用,因为它们明确要求对所有数据进行完全访问。在理论上,我们使用一个称为 “可能近似公平和最优学习”(PAFO-learnability)的新概念,严格地制定了公平主成分分析。在实际上,受近期应对内存限制的流数据算法的最新进展的启发,我们提出了一种称为 “公平流式主成分分析(fair streaming PCA)” 的新设置,以及一种内存高效的算法,公平噪声幂法(fair noisy power method,FNPM)。然后,在公平主成分分析文献中,我们提供了该算法的统计保证,这是其首次存在。最后,我们验证了我们算法在现实世界数据集上的效果和内存效率。