应用离散 PCA 进行数据分析

Jul, 2012

Applying Discrete PCA in Data Analysis

Wray L. Buntine, Aleks Jakulin

TL;DR本文介绍了一些扩展方法，并应用到常见的统计任务中，将其解释为离散版 ICA，通过支持向量机与信息检索进行文本预测任务的算法比较。

Abstract

Methods for analysis of principal components in discrete data have existed for some time under various names such as grade of membership modelling, probabilistic latent semantic analysis, and genotype inference with admixture. In this paper we explore a number of extensions to the comm

principal components analysis discrete data ica hierarchical model gibbs sampling

发现论文，激发创造

离散组分分析

本文提出了一种离散数据分析的统一理论，并将该理论与独立分量分析、非负矩阵分解和潜在狄利克雷分配等技术进行了比较。讨论的主要算法包括变分近似、吉布斯抽样和 Rao-Blackwellised Gibbs 抽样。文章介绍了在美国参议院 2003 年的投票记录和路透社 - 21578 新闻线路集的应用。

Apr, 2006

剩余分量分析：在线性高斯模型中推广 PCA 以获得更灵活的推断能力

本文提出了一种新的基于残差方差的概率主成分分析 (PPCA) 模型 —— 残差成分分析 (RCA)，并探讨了由此框架产生的新算法，其中包括将高斯密度的协方差分解为低秩与稀疏逆两个部分的算法。作者在蛋白质信号网络恢复，基因表达时间序列数据集分析以及基于三维点云数据恢复人类骨架方面阐述了该模型的应用。

Jun, 2012

广义低秩模型

本文将 PCA 技术扩展到处理包含数字、布尔、分类、有序等多种数据类型的任意数据集，提出了一种处理异构数据集的通用低秩模型，并为其提供了一些基于并行算法的实现。

Oct, 2014

主成分分析教程

探究主成分分析的背后真相及数学原理，为所有级别的读者提供更好的理解和应用此技术的时间、方法和动机。

Apr, 2014

改进的分布式主成分分析

本文研究具有多台服务器的分布式计算环境，通过开发 PCA 算法来处理点集的低维子空间问题，进而解决异常检测以及聚类等计算问题，提出的新算法显著降低了 $k$-means 聚类与相关问题的计算以及通讯成本，并且经过实验验证，在解决方案质量方面具有忽略不计的退化。

Aug, 2014

用主成分分析估计数据的内在维度

本文介绍了一种基于 PCA 的新方法，用于估计具有非线性结构的数据的内在维数，该方法利用整个数据集估计其内在维数，并方便增量学习。该方法使用数据的最小覆盖来处理数据集的非线性结构，并通过检查所有小邻域区域的数据方差来确定估计结果。实验结果表明，该方法可以过滤数据中的噪声，并在邻域区域大小增加时收敛到稳定的估计值。

Feb, 2010

差分隐私主成分的近似最优算法

本文探讨了不同 ially private PCA 方法的理论和实证性能，并提出了一种明确优化输出效用的新方法。我们发现其样本复杂度与现有程序的不同之处在于其与数据维度的缩放，而且在实际数据中，该方法与现有方法相比具有较大的性能差距。

Jul, 2012

数据集上的主成分分析的两种导出方法

本文提出了一种针对数据集不是点而是分布的主成分分析方法，可以从方差最大化原则和重构误差最小化的角度获得闭合解。

Jun, 2023

单个独立潜变量的发现

本文提出了一种基于自编码器的方法，通过恢复两个统计独立组件的隐藏元素来解决混合数据下的潜变量发现问题，并在图像合成、语音合成和胎儿心电图提取等多个任务中进行了性能验证。

Oct, 2021

结构化人群的遗传变异概率模型应用于全球人类研究

本文提出两种概率模型：一种是利用主成分分析（PCA）实现 Pritchard-Stephens-Donnelly 混合成员模型的估计，另一种是基于人口结构模型的概率模型的新 “逻辑因子分析”（LFA）框架的提出，这些模型较少地提出了建模假设，而这些模型能识别与结构存在高度分化的 SNPs。

Dec, 2013