基于传播度量的分层聚类
本文介绍了一种适用于一组点之间的层次结构的简单代价函数,该函数基于这些点之间的相似性,克服了现有算法由于缺乏精确客观函数而退化的问题。作者进一步证实该方法在经典实例中表现出良好的性能,并提出了一种上行建设程序,其近似比可以证明是好的。
Oct, 2015
本文研究了带有结构约束条件的层次聚类问题,提出了两种基于优化视角的自顶向下算法,并且通过公式化约束性正则化的方法在存在冲突先验信息的情况下得出了良好的解,同时探讨了基于差异性信息变化的目标函数的变形并进一步优化了当前技术,最后将该方法应用于实际数据集的分类学应用
May, 2018
Grinch是一种新的算法,用于支持具有任意相似度的非贪婪层次聚类,该算法以其旋转和嫁接子程序为关键组件,可以快速重新配置层次结构,支持发现具有复杂结构的聚类,并且在数据到达顺序独立的情况下能够保证生成包含基本真值的聚类树。该算法在基准和作者共现数据集上(使用标准和学习链接函数)得到了良好的实验结果,其准确性超过了其他可扩展方法,并快了数个数量级以上。
Dec, 2019
本文提出了一种可扩展的聚合层次聚类方法,可以在不降低质量的前提下对数十亿个数据点进行聚类,并在公开的聚类基准测试集上实现了最先进的结果,同时还将层次聚类引入作为非参数聚类目标的近似算法。
Oct, 2020
本文提出了一种层次凝聚图聚类算法框架并给出了完整的精确算法和近似算法,可以用于加权图的聚类问题,并通过用$k$-NN方法将点集转化为加权图,实现对点集的快速聚类。
Jun, 2021
本文提出两种高效的分层聚类算法,针对Dasgupta成本函数。对于任何有明确集群结构的输入图G,我们设计的算法在G的输入大小几乎为线性的时间内运行,并返回一个相对于Dasgupta成本函数的O(1)近似HC树。我们将我们的算法的性能与先前的最新技术在合成和真实世界的数据集上进行比较,并表明我们设计的算法在更短的运行时间内产生了相当或更好的HC树。
Jun, 2023
我们改进了关于完全连接法在度量空间中得到的聚类最大直径的现有限制,其中一种新的限制能够在直径的近似度上将完全连接法与单连接法进行区分,从而验证了当目标是生成紧凑聚类时,前者比后者更适用。我们还展示了我们的技术可以用于推导包括非常流行的平均连接法在内的一类连结法的凝聚度的上限。
May, 2024
在半随机图模型中,我们研究了平衡切割问题的精确性和时间复杂度,并且提出了第一个近似线性时间算法,以及与相关问题的拓展应用和对半随机分层随机块模型的聚类目标函数进行近似线性时间O(1)近似的方法。
Jun, 2024