Oct, 2012

大规模稀疏主成分分析及其在文本数据中的应用

TL;DR本文介绍了一种快速的块升算法来实现稀疏主成分分析,该方法可以更好地解决特征数量很多的数据集的问题,并使用亿万级文档和成千上万个特征的文本语料库的实验结果证明了 Sparse PCA 对于组织大量文本数据具有很好的效果。