随机模型对聚类相似性的影响

Jan, 2017

The Impact of Random Models on Clustering Similarity

Alexander J Gates, Yong-Yeol Ahn

TL;DR本论文研究聚类的相似性度量方法，为不同的随机聚类模型推导了两个校正变体，比较了它们在合成例子，手写识别和基因表达数据中的效果，并指出随机聚类模型的选择对评估聚类方法和聚类对比排序有重大影响。

Abstract

clustering is a central approach for unsupervised learning. After clustering is applied, the most fundamental analysis is to quantitativel

发现论文，激发创造

提出了一种用于计算调整兰德指数 (Adjusted Rand Index, ARI) 的单一框架，其中包括三种直观且可解释的随机模型，适用于硬聚类和模糊聚类，并具有较低的计算复杂度。该论文对所提出的模型的理论和假设与现有的排列模型进行了对比，对合理的模型选择对结果的可靠性至关重要。

Dec, 2023

本文提出了一种满足微聚类特性的贝叶斯随机分区模型，并在实验中展示了该模型在实体解析的应用。

Apr, 2020

提出了一种贝叶斯距离聚类方法，它使用基于数据点之间成对差异的先验知识以取得更强的鲁棒性，可以在距离聚类和模型聚类之间找到一个平衡点，并通过其在脑基因表达数据的聚类应用中展示了其性能

Oct, 2018

聚类算法在数据分析中被广泛使用，本文研究了加入无关特征对聚类结果的影响，并发现 Silhouette 系数和 Davies-Bouldin 分数对无关特征最为敏感，因此可用于无监督聚类任务中的特征选择。

Feb, 2024

本文研究高维数据的聚类方法，探讨了 Expectation-Maximization 算法、基于 K-means 的获胜者通吃算法和基于模型的分层凝聚聚类算法，发现 EM 算法在质量上明显优于其他方法，并研究了各种初始化方案对 EM 算法产生的最终解的影响。

Jan, 2013

该研究采用信息理论的视角来重新构造聚类问题，避免了许多现有聚类方法所依赖的非常规结构的假设，且捕捉了非线性关系。基于集体相似度而非传统的成对度量，该方法在不同领域内都表现出比现有算法更高的聚类一致性。

Nov, 2005

基于逐对相似性的人工反馈和统计估计的聚类数量方法。

Dec, 2023

本文提出了一种新颖的基于随机游走的集成聚类方法，通过快速传播集群间相似性解决了现有算法所面临的对象级别信息和多尺度间接联系隐藏等方面的挑战，并提出了两个新的一致性函数以获得一致聚类结果。

Oct, 2018

该论文介绍了一种基于众包模型的图像聚类方法，可应对无法得知聚类数目的情况，该方法的有效性已通过在多个人工数据集上的应用得到了证明。

Oct, 2016

本文证明了在大尺度图像分类基准测试中，最新的提出的模型虽然其准确性相异，但其预测相似性很高，这一相似性缓解了过拟合问题。作者还根据这一相似性给出了一种新的泛化界限的数学模型，能够更好地应用于机器学习中测试数据的重复使用问题。

May, 2019