广泛间隔与聚类公理

Aug, 2023

Wide Gaps and Clustering Axioms

Mieczysław A. Kłopotek

TL;DR这篇研究论文介绍了对 k-means 算法的扩展，以符合 Kleinberg 的公理系统，并提出了新的聚类性质，进一步解释了算法的特点和适用性。

Abstract

The widely applied k-means algorithm produces clusterings that violate our expectations with respect to high/low similarity/density and is in conflict with →

k-means algorithm clusterings kleinberg's axiomatic system clusterability properties kleinberg's richness axiom

发现论文，激发创造

追求连续性公理

本文提出了一种替代 Kleinberg 公理化系统的算法，可以生成新的带标记的测试数据集，以用于聚类算法测试。

Feb, 2022

聚类的唯一性定理

本文采用公理化方法研究聚类理论，提出一套符合逻辑的公理并通过对单联通聚类函数的抽象属性进行分类，为用户提供了选择合适聚类范例的指导。

May, 2012

非对称网络的分层聚类的公理构建

本文探讨了基于定向不相似性的网络，并试图通过各种可接受的方法来确定分层聚类。这些方法采用了数学上的公设和转换，包括对称性和非对称性方法，开发了相应算法，并以美国国内移民和经济部门间相互关系的网络为例进行了演示。

Jan, 2013

如何克服财富公理偏见

该研究论文指出 Kleinberg 的公理系统中富度公理所暗示的哀悼问题并提出解决方案，即提出了可学性约束，使用核心一致性或限制所考虑的簇的域到超球体簇。

Oct, 2022

数据易于 (对于 K-Means)

该论文研究了 $k$-means 算法的能力，正确地恢复互相分离的簇群。基于常见的簇群定义，考虑了簇内同质性和簇间多样性的要求，并找到了一种特殊情况的互相分离簇群，使得 $k$-means 的代价函数全局最小值与互相分离性一致。通过实验发现各种 $k$-means 品牌实际上无法发现互相分离的簇群，因此提出了一种新的算法，通过重复子抽样选择种子的方式，对 $k$-means++ 进行变体改进，并在任务中胜过 $k$-means 系列中的其他四种算法。

Aug, 2023

有效应对距离约束：基于半径上界的强韧 K 均值算法

在探索性数据分析中，基于中心点的聚类方法如 k-means、k-medoids 和 k-centers 被广泛应用。我们提出了一种引入最大半径约束的聚类方法，通过解决半定规划问题和带二次约束的线性分配问题来达到我们的约束。通过定量和定性实验，我们证明了该方法在处理复杂的实际数据集时的鲁棒性。

Mar, 2022

聚类的计算理论与半监督算法

提出了一种计算理论和半监督聚类算法，将聚类定义为根据所选的聚类原则和度量方法获得数据分组，使每个组不包含异常值，所有其他示例被认为是边缘点，孤立的异常值、异常簇或未知簇。

Jun, 2023

带谱范数和 k-means 算法的聚类

该论文证明了一个简单的聚类算法可以在不假设任何生成模型的情况下运作，只需要假定一种叫做 “接近条件” 的规律。该算法依赖于著名的 k-means 算法，能够产生大多数现有生成模型的结果，同时提出了一种新的技术来提高间距与标准差之比。

Apr, 2010

欧几里得 k-means 的稳定实例聚类

本文研究在实际应用中，哪些加性扰动稳定性的实例可以设计有效算法，并证明它们能找到最优聚类。我们提出了一种稳定性定义，并设计了算法以证明稳定实例的最优聚类。当实例具有一定的分离性时，我们显示出一种具有证明保证的鲁棒算法，也能容忍异常值。通过研究真实数据集的稳定性，我们补充了这些结果，并展示了我们的算法在这些基准数据集上的表现。

Dec, 2017

可扩展核聚类：近似核 k-means

本文提出了一种基于随机化的近似核 K-means 簇算法，其利用采样点与数据集中所有点之间的核相似性来近似聚类中心，实现了与传统低秩核近似聚类方案相比更好的聚类性能、更短的运行时间和更小的内存需求，最后利用集成聚类技术进一步提高算法性能。

Feb, 2014