将聚类视为不适定问题：K-Means 算法实验

Nov, 2022

将聚类视为不适定问题：K-Means 算法实验

Solving clustering as ill-posed problem: experiments with K-Means algorithm

Alberto Arturo Vergani

TL;DR本文研究了基于 KMeans 算法的聚类过程作为反问题的特殊情况，探索了通过主成分分析来改进聚类反问题质量的尝试，并比较了两种定量特征选择方法之间的关系。使用神经科学数据库中的功能性磁共振成像范例来验证结果。

Abstract

In this contribution, the clustering procedure based on k-means algorithm is studied as an inverse problem, which is a special case of the illposed problems. The attempts to improve the quality of the

clustering k-means principal component analysis neuroscience fmri

发现论文，激发创造

高维聚类的有影响特征的 PCA

研究使用 Influential Features PCA (IF-PCA) 方法，通过选取 Kolmogorov-Smirnov（KS）得分最高的小部分特征，利用 k-means 算法估计标签来解决聚类问题，特别针对”p>>n” 现代情况中，传统聚类方法面临的挑战以及基因微阵列数据集中的错误率高问题，其在 10 个基因微阵列数据集中表现出竞争性较强的聚类效果，并在文中发现了关于实证零的现象以及三个数据集中”IF-PCA” 错误率极低的结果。

Jul, 2014

改进的分布式主成分分析

本文研究具有多台服务器的分布式计算环境，通过开发 PCA 算法来处理点集的低维子空间问题，进而解决异常检测以及聚类等计算问题，提出的新算法显著降低了 $k$-means 聚类与相关问题的计算以及通讯成本，并且经过实验验证，在解决方案质量方面具有忽略不计的退化。

Aug, 2014

学习增强的降维 K 均值聚类

使用主成分分析（PCA）降低数据集的维度，提高 k-means 算法在特定质心下的预测性能和降低成本。

Jan, 2024

稀疏主成分分析和迭代阈值法

本文针对特征数比样本个数大的情况，提出了一种新的迭代阈值方法，用于估计主成分空间，这种方法在高维稀疏场景下实现了主成分空间和主要特征向量的一致恢复和最优恢复。模拟实例也证明了其具有竞争性的性能。

Dec, 2011

用主成分分析估计数据的内在维度

本文介绍了一种基于 PCA 的新方法，用于估计具有非线性结构的数据的内在维数，该方法利用整个数据集估计其内在维数，并方便增量学习。该方法使用数据的最小覆盖来处理数据集的非线性结构，并通过检查所有小邻域区域的数据方差来确定估计结果。实验结果表明，该方法可以过滤数据中的噪声，并在邻域区域大小增加时收敛到稳定的估计值。

Feb, 2010

使用随机特征的近似核主成分分析：计算与统计的权衡

本文研究了随机特征逼近在核主成分分析中的应用，通过比较计算效率和统计效率，分析了逼近 KPCA 的计算和统计性能优于 KPCA，研究依赖于自伴随 Hilbert-Schmidt 算子值 U 统计量的算子和 Hilbert-Schmidt 范数的 Bernstein 型不等式。

Jun, 2017

图上快速鲁棒主成分分析

本文提出了一种基于主成分分析（PCA）的解决方案，通过设计凸优化问题来实现对高维数据集的低秩恢复，重点解决了高计算复杂性、非凸性和数据中的大量异常问题，同时经过了 7 组基准数据集的聚类实验和 3 组视频数据集的背景分离实验的测试，结果表明我们提出的模型优于 10 种最先进的降维模型。

Jul, 2015

等方性主成分分析和仿射不变聚类

本文提出了一种基于 isotropic PCA 的 affine-invariant 聚类算法，该算法在混合模型输入的情况下有很强的保证力，特别是在对两个任意高斯混合的分类中结果最佳，对于超过两个的混合，只要存在一个低维度的子空间满足重叠很小的条件，即可得到良好的结果。

Apr, 2008

随机降维 k-means 聚类

本文研究了 $k$-means 聚类的降维问题，提出了第一个能够保证准确的特征选择方法，并针对特征提取提出了两种方法，分别基于随机投影和快速近似 SVD 分解。所提出的算法是随机的，并对最优 $k$-means 目标值提供一定的近似保证。

Oct, 2011

图上稳健主成分分析

本文介绍了一种名为 “在图上强鲁棒性主成分分析” 的新模型，它将谱图正则化纳入了 Robust PCA 框架中，从而具有主成分丰富性、改进的低秩恢复、改进的聚类性质和凸优化问题等优点，从实验结果来看，模型在聚类和低秩恢复任务方面表现优异，优于其他十种最先进的模型。

Apr, 2015