使用 Hartigan 方法的核 k-群
通过将线性k-均值聚类应用于使用称为等级限制的Nyström近似构造的{k/epsilon}(1+o(1))特征,本文分析了该范例应用于核k-均值聚类,并表明相对于不使用Nyström方法提供的保证,计算出的群集分配会满足相对于核k-means成本函数的1+epsilon逼近度。
Jun, 2017
在本研究中,我们提出了Kernel Ridge Regression (KRR)和Kernel K-means聚类(KKMC)中所需的核函数评估数量的严格下限,并且通过有效的统计维度,我们的KRR结果解决了一个关于采样复杂度的开放性问题。此外,对于输入数据为高斯混合模型的情况,我们提供了一种超越了上述下限的KKMC算法。
May, 2019
本文研究核参数对核$k$-means聚类算法的影响,给出一下RBF核参数下界,建议使用基于快速近似指数函数的算法进行参数搜索,并提供了一种高效实现方法。实验结果证明了该方法能够有效地揭示一组丰富而有用的超参数值。
Jun, 2020
该研究论文讨论了谱聚类算法在大型随机分布数据集上的表现,提供了一种能够找到数据集潜在密度规律的谱聚类算法,并通过引入Cheeger-Buser不等式为所有随机分布提供新的支持。
May, 2023
本研究使用能量景观方法探寻$K$-means算法中数据集异常值对其性能的影响,发现其代价函数表面会形成更窄的漏斗形态,每个漏斗之间会有一些不支持聚类的区域,而其中的浅漏斗则对应不同类型的聚类解决方案,而异常值的逐渐增多会导致漏斗内的路径变长以及准确性和成本函数之间的相关性降低。最后,本研究提出了一种新的聚类相似度测量方法,能够忽略异常值的影响,并在多异常值的数据集中进行了应用。
Jun, 2023
通过引入几何和统计的论点,我们证明了在渐近意义下样本驱动的 Fermat 距离收敛于连续距离,并展示了离散图拉普拉斯算子和对应的连续算子的收敛情况和有效性。
Jul, 2023
基于张量的聚类方法中存在一些挑战,为了克服这些挑战,我们提出了一种名为高阶异质聚类(HHC)的两阶段方法,通过创新的谱算法进行张量子空间估计,然后使用近似k-means算法获得聚类节点,模拟和实际数据实验证明我们的算法在各种情境下都优于现有算法,提供更可靠的聚类性能。
Nov, 2023
我们提出了GeometricKernels软件包,它在图形、网格、流形或其他相关空间上定义了具有良好不确定性量化行为和数值计算价值的核函数,从而解决了定义有结构数据的设置中出现的困难。
Jul, 2024