本文提出了一种新的鲁棒的自下而上聚类算法,并展示了在满足一定自然属性且传统算法失效的情况下,该算法可以被用来进行准确的聚类。同时,该算法也被适用于归纳设置,并在合成数据和真实数据集上的实验表明,在存在噪音时,与其他分层算法相比,该算法可以获得更好的表现。
Jan, 2014
本文提出了一种交互式贝叶斯算法,该算法将用户交互纳入层次聚类中,同时利用数据的几何形状通过对层次结构上的有约束的后验分布进行采样,提出了几种智能查询方式。该算法以及查询方案在真实数据上表现出了良好的结果。
Feb, 2016
本文研究高维数据的聚类方法,探讨了 Expectation-Maximization 算法、基于 K-means 的获胜者通吃算法和基于模型的分层凝聚聚类算法,发现 EM 算法在质量上明显优于其他方法,并研究了各种初始化方案对 EM 算法产生的最终解的影响。
Jan, 2013
使用 BETULA 数据聚合算法进行数据聚类,使得在资源受限的系统上使用层次凝聚聚类方法成为可能,仅在聚类质量上有轻微损失,并且允许对非常大的数据集进行探索性数据分析。
Sep, 2023
本文提出了一种可扩展的聚合层次聚类方法,可以在不降低质量的前提下对数十亿个数据点进行聚类,并在公开的聚类基准测试集上实现了最先进的结果,同时还将层次聚类引入作为非参数聚类目标的近似算法。
Oct, 2020
本文从贝叶斯非参数的角度出发,重新审视了 k-means 聚类算法。通过分析 Dirichlet 过程混合物的 Gibbs 抽样算法,我们发现这个算法在极限下接近于硬聚类算法,可以优雅且单调地最小化一个类似 k-means 的聚类目标,包括对聚类数的惩罚。我们将这个方法推广到了多个数据集的聚类情况,并讨论了进一步的扩展,包括门槛特征向量的光谱松弛和在图中不需要固定聚类数的归一化割图聚类算法。
Nov, 2011
这篇论文通过 Bregman 距离对凸函数进行聚类,引入几何平滑技术处理聚类异常,并基于过完备表示的指数家族模型发展 Bregman 距离算法。
Jun, 2012
本文提出了一种新的视角来考察聚类算法,侧重于恢复层次结构,并推荐了一种通过最大平均点积合并聚类的简单变体算法,该算法在数据的概率图模型下提供了真实的层次结构估计,并通过实际数据表现出比现有方法(如 UPGMA、Ward's 方法和 HDBSCAN)更出色的树恢复性能。
May, 2023
本文探讨一种基于贝叶斯方法的层次聚类算法,它能够在每个结点上产生任意分支结构的玫瑰树,并通过一种计算有效的贪心凝聚算法来找到具有高边际似然值的玫瑰树,最终实验证明,玫瑰树是数据的较好模型。
Mar, 2012
提出了一种新的多聚类方法,该方法使用非参数贝叶斯方法进行模型推断,使用变分推断来求解,该方法在处理高维度数据时更为适用,在聚类时模型同时处理了数值型和分类型变量,应用该方法于真实数据集时能够推出数据集的聚类结构信息,并可应用于抑郁症数据集上。
Oct, 2015