将聚类视为不适定问题:K-Means 算法实验
研究使用 Influential Features PCA (IF-PCA) 方法,通过选取 Kolmogorov-Smirnov(KS)得分最高的小部分特征,利用 k-means 算法估计标签来解决聚类问题,特别针对”p>>n” 现代情况中,传统聚类方法面临的挑战以及基因微阵列数据集中的错误率高问题,其在 10 个基因微阵列数据集中表现出竞争性较强的聚类效果,并在文中发现了关于实证零的现象以及三个数据集中”IF-PCA” 错误率极低的结果。
Jul, 2014
本文研究具有多台服务器的分布式计算环境,通过开发 PCA 算法来处理点集的低维子空间问题,进而解决异常检测以及聚类等计算问题,提出的新算法显著降低了 $k$-means 聚类与相关问题的计算以及通讯成本,并且经过实验验证,在解决方案质量方面具有忽略不计的退化。
Aug, 2014
本文针对特征数比样本个数大的情况,提出了一种新的迭代阈值方法,用于估计主成分空间,这种方法在高维稀疏场景下实现了主成分空间和主要特征向量的一致恢复和最优恢复。模拟实例也证明了其具有竞争性的性能。
Dec, 2011
本文介绍了一种基于 PCA 的新方法,用于估计具有非线性结构的数据的内在维数,该方法利用整个数据集估计其内在维数,并方便增量学习。该方法使用数据的最小覆盖来处理数据集的非线性结构,并通过检查所有小邻域区域的数据方差来确定估计结果。实验结果表明,该方法可以过滤数据中的噪声,并在邻域区域大小增加时收敛到稳定的估计值。
Feb, 2010
本文研究了随机特征逼近在核主成分分析中的应用,通过比较计算效率和统计效率,分析了逼近 KPCA 的计算和统计性能优于 KPCA,研究依赖于自伴随 Hilbert-Schmidt 算子值 U 统计量的算子和 Hilbert-Schmidt 范数的 Bernstein 型不等式。
Jun, 2017
本文提出了一种基于主成分分析(PCA)的解决方案,通过设计凸优化问题来实现对高维数据集的低秩恢复,重点解决了高计算复杂性、非凸性和数据中的大量异常问题,同时经过了 7 组基准数据集的聚类实验和 3 组视频数据集的背景分离实验的测试,结果表明我们提出的模型优于 10 种最先进的降维模型。
Jul, 2015
本文提出了一种基于 isotropic PCA 的 affine-invariant 聚类算法,该算法在混合模型输入的情况下有很强的保证力,特别是在对两个任意高斯混合的分类中结果最佳,对于超过两个的混合,只要存在一个低维度的子空间满足重叠很小的条件,即可得到良好的结果。
Apr, 2008
本文研究了 $k$-means 聚类的降维问题,提出了第一个能够保证准确的特征选择方法,并针对特征提取提出了两种方法,分别基于随机投影和快速近似 SVD 分解。所提出的算法是随机的,并对最优 $k$-means 目标值提供一定的近似保证。
Oct, 2011
本文介绍了一种名为 “在图上强鲁棒性主成分分析” 的新模型,它将谱图正则化纳入了 Robust PCA 框架中,从而具有主成分丰富性、改进的低秩恢复、改进的聚类性质和凸优化问题等优点,从实验结果来看,模型在聚类和低秩恢复任务方面表现优异,优于其他十种最先进的模型。
Apr, 2015