广泛间隔与聚类公理
本文探讨了基于定向不相似性的网络,并试图通过各种可接受的方法来确定分层聚类。这些方法采用了数学上的公设和转换,包括对称性和非对称性方法,开发了相应算法,并以美国国内移民和经济部门间相互关系的网络为例进行了演示。
Jan, 2013
该论文研究了 $k$-means 算法的能力,正确地恢复互相分离的簇群。基于常见的簇群定义,考虑了簇内同质性和簇间多样性的要求,并找到了一种特殊情况的互相分离簇群,使得 $k$-means 的代价函数全局最小值与互相分离性一致。通过实验发现各种 $k$-means 品牌实际上无法发现互相分离的簇群,因此提出了一种新的算法,通过重复子抽样选择种子的方式,对 $k$-means++ 进行变体改进,并在任务中胜过 $k$-means 系列中的其他四种算法。
Aug, 2023
在探索性数据分析中,基于中心点的聚类方法如 k-means、k-medoids 和 k-centers 被广泛应用。我们提出了一种引入最大半径约束的聚类方法,通过解决半定规划问题和带二次约束的线性分配问题来达到我们的约束。通过定量和定性实验,我们证明了该方法在处理复杂的实际数据集时的鲁棒性。
Mar, 2022
提出了一种计算理论和半监督聚类算法,将聚类定义为根据所选的聚类原则和度量方法获得数据分组,使每个组不包含异常值,所有其他示例被认为是边缘点,孤立的异常值、异常簇或未知簇。
Jun, 2023
该论文证明了一个简单的聚类算法可以在不假设任何生成模型的情况下运作,只需要假定一种叫做 “接近条件” 的规律。该算法依赖于著名的 k-means 算法,能够产生大多数现有生成模型的结果,同时提出了一种新的技术来提高间距与标准差之比。
Apr, 2010
本文研究在实际应用中,哪些加性扰动稳定性的实例可以设计有效算法,并证明它们能找到最优聚类。我们提出了一种稳定性定义,并设计了算法以证明稳定实例的最优聚类。当实例具有一定的分离性时,我们显示出一种具有证明保证的鲁棒算法,也能容忍异常值。通过研究真实数据集的稳定性,我们补充了这些结果,并展示了我们的算法在这些基准数据集上的表现。
Dec, 2017
本文提出了一种基于随机化的近似核 K-means 簇算法,其利用采样点与数据集中所有点之间的核相似性来近似聚类中心,实现了与传统低秩核近似聚类方案相比更好的聚类性能、更短的运行时间和更小的内存需求,最后利用集成聚类技术进一步提高算法性能。
Feb, 2014