数据集上的主成分分析的两种导出方法
本文研究具有多台服务器的分布式计算环境,通过开发 PCA 算法来处理点集的低维子空间问题,进而解决异常检测以及聚类等计算问题,提出的新算法显著降低了 $k$-means 聚类与相关问题的计算以及通讯成本,并且经过实验验证,在解决方案质量方面具有忽略不计的退化。
Aug, 2014
本文提出了一种分布式 PCA 算法,并研究了其结果的偏差和方差,证明了在数据分布具有对称创新的情况下,经验顶部特征空间是没有偏差的,且在机器数量不过多时,分布式 PCA 算法表现与整体聚合 PCA 算法相当。
Feb, 2017
在统计分布设置中,研究了 PCA 的基本问题,介绍了一种在计算效率和估计误差方面都优于局部 ERM 解决方案的算法,通过进行简单的校正步骤来消除误差并提供一种估计器,还介绍了一种使用分布式矩阵向量乘法的迭代分布式算法,提供在广泛的参数范围内通信轮次的显着加速。
Feb, 2017
本文提出了一种新的基于残差方差的概率主成分分析 (PPCA) 模型 —— 残差成分分析 (RCA),并探讨了由此框架产生的新算法,其中包括将高斯密度的协方差分解为低秩与稀疏逆两个部分的算法。作者在蛋白质信号网络恢复,基因表达时间序列数据集分析以及基于三维点云数据恢复人类骨架方面阐述了该模型的应用。
Jun, 2012
本文探讨了不同 ially private PCA 方法的理论和实证性能,并提出了一种明确优化输出效用的新方法。我们发现其样本复杂度与现有程序的不同之处在于其与数据维度的缩放,而且在实际数据中,该方法与现有方法相比具有较大的性能差距。
Jul, 2012
本文介绍了一种基于 PCA 的新方法,用于估计具有非线性结构的数据的内在维数,该方法利用整个数据集估计其内在维数,并方便增量学习。该方法使用数据的最小覆盖来处理数据集的非线性结构,并通过检查所有小邻域区域的数据方差来确定估计结果。实验结果表明,该方法可以过滤数据中的噪声,并在邻域区域大小增加时收敛到稳定的估计值。
Feb, 2010
本文提出一种在主成分分析中内在于目标函数中的公正准则的分布式稳健优化问题,通过采用超越最小二乘意义的子群重构误差之间的重构误差差异,平衡了总体重建误差和子群之间的重建误差差异,以及实验证明该方法较其他现有方法有明显优势。
Feb, 2022
提出一种新的基于加权方差协方差矩阵的双谱分解方法,旨在在具有加权和 / 或缺失数据问题的情况下,检索给定数量的正交主成分,该方法通过将主成分拟合到数据并进行分解,从而检索主系数。通过在实际情况和模拟情况下进行测试,结果表明该方法能够在数据集中识别最显著的模式,并且可以使用此方法将 Sloan Digital Sky Survey 类星体光谱从测量波长外推至更短和更长波长。同时该算法的实现速度快且灵活。
Dec, 2014