K-groups: K-means 聚类的推广
本文考虑了负型度量空间中采用能量统计的加权版本的聚类问题,并提出了一种称为 kernel k-groups 的方法来解决相关优化问题。我们验证了该方法在社区检测中的效率。
Oct, 2017
本文基于极值理论的广义帕累托分布,提出了一种新的聚类算法 GPD k-means,它模型化了聚类的距离分布,并用概率模型描述了每个类别。实验证明,在合成数据集和真实数据集上,GPD k-means 优于传统聚类算法。
Feb, 2022
该论文提出了一种基于核函数的机器学习算法,可以通过对数据集的分组进行处理,采用独立同分布的样本集作为数据点,利用非参数估计器提取核函数特征从而实现多种分类、回归和异常检测等任务。
Feb, 2012
该论文证明了一个简单的聚类算法可以在不假设任何生成模型的情况下运作,只需要假定一种叫做 “接近条件” 的规律。该算法依赖于著名的 k-means 算法,能够产生大多数现有生成模型的结果,同时提出了一种新的技术来提高间距与标准差之比。
Apr, 2010
本文提出了一种基于随机化的近似核 K-means 簇算法,其利用采样点与数据集中所有点之间的核相似性来近似聚类中心,实现了与传统低秩核近似聚类方案相比更好的聚类性能、更短的运行时间和更小的内存需求,最后利用集成聚类技术进一步提高算法性能。
Feb, 2014
在半监督环境中,通过引入聚类算法准确性的大小泛化概念,我们可以通过对较小的实例集进行评估,并保证在原始大型实例上具有最好准确性的算法也在小实例上具有最好准确性。
Feb, 2024
这篇论文介绍了一种基于 Bregman 距离的聚类算法,相较于 Lloyd 的 K-means 算法,在聚类非高斯数据方面有更好的表现,并提供了理论依据和实验验证。
Jun, 2022
本文从贝叶斯非参数的角度出发,重新审视了 k-means 聚类算法。通过分析 Dirichlet 过程混合物的 Gibbs 抽样算法,我们发现这个算法在极限下接近于硬聚类算法,可以优雅且单调地最小化一个类似 k-means 的聚类目标,包括对聚类数的惩罚。我们将这个方法推广到了多个数据集的聚类情况,并讨论了进一步的扩展,包括门槛特征向量的光谱松弛和在图中不需要固定聚类数的归一化割图聚类算法。
Nov, 2011
本研究使用能量景观方法探寻 $K$-means 算法中数据集异常值对其性能的影响,发现其代价函数表面会形成更窄的漏斗形态,每个漏斗之间会有一些不支持聚类的区域,而其中的浅漏斗则对应不同类型的聚类解决方案,而异常值的逐渐增多会导致漏斗内的路径变长以及准确性和成本函数之间的相关性降低。最后,本研究提出了一种新的聚类相似度测量方法,能够忽略异常值的影响,并在多异常值的数据集中进行了应用。
Jun, 2023