K-groups: K-means 聚类的推广

Nov, 2017

K-groups: A Generalization of K-means Clustering

Songzi Li, Maria L. Rizzo

TL;DR提出了一种新的基于能量距离的分布聚类算法 ——k-groups，它可以用于解决数据不服从正态分布或有强烈偏斜和重尾时的聚类问题。与传统的 k-means 算法相比，k-groups 算法在高维度和非球形簇方面表现更好，并且在皮肤科数据案例中也表现出优异的性能。

Abstract

We propose a new class of distribution-based clustering algorithms, called k-groups, based on energy distance between samples. The

distribution-based clustering algorithms energy distance k-groups hartigan and wong's k-means algorithm univariate and multivariate cases

发现论文，激发创造

使用 Hartigan 方法的核 k - 群

本文考虑了负型度量空间中采用能量统计的加权版本的聚类问题，并提出了一种称为 kernel k-groups 的方法来解决相关优化问题。我们验证了该方法在社区检测中的效率。

Oct, 2017

极值理论概率分布聚类

本文基于极值理论的广义帕累托分布，提出了一种新的聚类算法 GPD k-means，它模型化了聚类的距离分布，并用概率模型描述了每个类别。实验证明，在合成数据集和真实数据集上，GPD k-means 优于传统聚类算法。

Feb, 2022

通过非参数散度估计在样本集上的核函数

该论文提出了一种基于核函数的机器学习算法，可以通过对数据集的分组进行处理，采用独立同分布的样本集作为数据点，利用非参数估计器提取核函数特征从而实现多种分类、回归和异常检测等任务。

Feb, 2012

带谱范数和 k-means 算法的聚类

该论文证明了一个简单的聚类算法可以在不假设任何生成模型的情况下运作，只需要假定一种叫做 “接近条件” 的规律。该算法依赖于著名的 k-means 算法，能够产生大多数现有生成模型的结果，同时提出了一种新的技术来提高间距与标准差之比。

Apr, 2010

可扩展核聚类：近似核 k-means

本文提出了一种基于随机化的近似核 K-means 簇算法，其利用采样点与数据集中所有点之间的核相似性来近似聚类中心，实现了与传统低秩核近似聚类方案相比更好的聚类性能、更短的运行时间和更小的内存需求，最后利用集成聚类技术进一步提高算法性能。

Feb, 2014

广义密度聚类

本研究研究了广义密度聚类，提出了两种数据基础方法来选择波宽，并研究了密度聚类的稳定性，表明一种简单的基于图的算法可以成功地近似高密度聚类。

Jul, 2009

从大到小的数据集：聚类算法选择的尺寸泛化

在半监督环境中，通过引入聚类算法准确性的大小泛化概念，我们可以通过对较小的实例集进行评估，并保证在原始大型实例上具有最好准确性的算法也在小实例上具有最好准确性。

Feb, 2024

基于 Bregman Power 的 k 均值算法用于聚类指数族数据

这篇论文介绍了一种基于 Bregman 距离的聚类算法，相较于 Lloyd 的 K-means 算法，在聚类非高斯数据方面有更好的表现，并提供了理论依据和实验验证。

Jun, 2022

基于贝叶斯非参数的 k-means 聚类新算法再探

本文从贝叶斯非参数的角度出发，重新审视了 k-means 聚类算法。通过分析 Dirichlet 过程混合物的 Gibbs 抽样算法，我们发现这个算法在极限下接近于硬聚类算法，可以优雅且单调地最小化一个类似 k-means 的聚类目标，包括对聚类数的惩罚。我们将这个方法推广到了多个数据集的聚类情况，并讨论了进一步的扩展，包括门槛特征向量的光谱松弛和在图中不需要固定聚类数的归一化割图聚类算法。

Nov, 2011

数据离群值的添加对 K 均值解决方案景观的演变及其分析的鲁棒聚类比较度量

本研究使用能量景观方法探寻 $K$-means 算法中数据集异常值对其性能的影响，发现其代价函数表面会形成更窄的漏斗形态，每个漏斗之间会有一些不支持聚类的区域，而其中的浅漏斗则对应不同类型的聚类解决方案，而异常值的逐渐增多会导致漏斗内的路径变长以及准确性和成本函数之间的相关性降低。最后，本研究提出了一种新的聚类相似度测量方法，能够忽略异常值的影响，并在多异常值的数据集中进行了应用。

Jun, 2023