使用 Hartigan 方法的核 k-群

Oct, 2017

Energy Clustering

Guilherme França, Joshua T. Vogelstein

TL;DR本文考虑了负型度量空间中采用能量统计的加权版本的聚类问题，并提出了一种称为 kernel k-groups 的方法来解决相关优化问题。我们验证了该方法在社区检测中的效率。

Abstract

energy statistics was proposed by Sz\'{e}kely in the 80's inspired by the Newtonian gravitational potential from classical mechanics, and it provides a hypothesis test for equality of distributions. It was further generalized from Euclidean spaces to metric spaces of strong negative ty

发现论文，激发创造

核切割：马尔可夫随机场相遇核和谱聚类

本文提出一种基于MRF势能和标准的成对聚类准则的新分割模型,并利用Kernel Cut算法来处理这种混合的能量，以实现高效的图像分割。

Jun, 2015

带Nystrom近似的可扩展核K-means聚类：相对误差界限

通过将线性k-均值聚类应用于使用称为等级限制的Nyström近似构造的{k/epsilon}(1+o(1))特征，本文分析了该范例应用于核k-均值聚类，并表明相对于不使用Nyström方法提供的保证，计算出的群集分配会满足相对于核k-means成本函数的1+epsilon逼近度。

Jun, 2017

通过放松张量范数实现更好的不可知聚类

基于平方和范数的$k$-means聚类的凸松弛算法及其学习算法，能够学习高斯混合物的均值。

Nov, 2017

核岭回归和核$k$-均值聚类的严格核查询复杂度

在本研究中，我们提出了Kernel Ridge Regression (KRR)和Kernel K-means聚类(KKMC)中所需的核函数评估数量的严格下限，并且通过有效的统计维度，我们的KRR结果解决了一个关于采样复杂度的开放性问题。此外，对于输入数据为高斯混合模型的情况，我们提供了一种超越了上述下限的KKMC算法。

May, 2019

离线化: 针对核聚类的快速高效超参数搜索

本文研究核参数对核$k$-means聚类算法的影响，给出一下RBF核参数下界，建议使用基于快速近似指数函数的算法进行参数搜索，并提供了一种高效实现方法。实验结果证明了该方法能够有效地揭示一组丰富而有用的超参数值。

Jun, 2020

大型数据集上的谱聚类：何时有效？来自连续聚类和密度Cheeger-Buser的理论

该研究论文讨论了谱聚类算法在大型随机分布数据集上的表现，提供了一种能够找到数据集潜在密度规律的谱聚类算法，并通过引入Cheeger-Buser不等式为所有随机分布提供新的支持。

May, 2023

数据离群值的添加对K均值解决方案景观的演变及其分析的鲁棒聚类比较度量

本研究使用能量景观方法探寻$K$-means算法中数据集异常值对其性能的影响，发现其代价函数表面会形成更窄的漏斗形态，每个漏斗之间会有一些不支持聚类的区域，而其中的浅漏斗则对应不同类型的聚类解决方案，而异常值的逐渐增多会导致漏斗内的路径变长以及准确性和成本函数之间的相关性降低。最后，本研究提出了一种新的聚类相似度测量方法，能够忽略异常值的影响，并在多异常值的数据集中进行了应用。

Jun, 2023

Fermat距离:度量逼近、谱收敛和聚类算法

通过引入几何和统计的论点，我们证明了在渐近意义下样本驱动的 Fermat 距离收敛于连续距离，并展示了离散图拉普拉斯算子和对应的连续算子的收敛情况和有效性。

Jul, 2023

异方差张量聚类

基于张量的聚类方法中存在一些挑战，为了克服这些挑战，我们提出了一种名为高阶异质聚类（HHC）的两阶段方法，通过创新的谱算法进行张量子空间估计，然后使用近似k-means算法获得聚类节点，模拟和实际数据实验证明我们的算法在各种情境下都优于现有算法，提供更可靠的聚类性能。

Nov, 2023

几何核包：用于流形、网格和图上的热核和 Matérn 核的几何学习

我们提出了GeometricKernels软件包，它在图形、网格、流形或其他相关空间上定义了具有良好不确定性量化行为和数值计算价值的核函数，从而解决了定义有结构数据的设置中出现的困难。

Jul, 2024