评估内部聚类验证指标的新方法

Aug, 2023

A new approach for evaluating internal cluster validation indices

Zoltán Botta-Dukát

TL;DR无监督分类的最优算法选择和聚类验证是一个广泛研究的问题，该论文回顾了现有的内部验证指标方法，并提出了一种新的方法。

Abstract

A vast number of different methods are available for unsupervised classification. Since no algorithm and parameter setting performs best in all types of data, there is a need for cluster validation to select the actually best-performing algorithm. Several indices were proposed for this

unsupervised classification algorithm selection cluster validation internal validation indices ground-truth classification

发现论文，激发创造

深度聚类评估：如何验证内部聚类验证指标

利用深度神经网络对复杂、高维数据进行分区的深度聚类方法存在独特的评估挑战，传统的聚类验证度量方法因适用于低维空间而在深度聚类中存在问题，本文针对在深度学习中评估聚类质量的问题进行了研究，提出了一个理论框架来突出使用内部验证度量方法在原始数据和嵌入数据上的无效性，并在深度聚类上提出了一种系统性的聚类有效性指标的应用方法，实验证明这个框架与外部验证度量方法更加吻合，有效地减少了在深度学习中不正确使用聚类有效性指标所引发的误导。

Mar, 2024

信息论外部聚类有效性度量

本研究提出了一种针对聚类算法进行 “外部” 评估的性能度量，该度量具有 “允许比较不同数量群集的量化和原则” 的特性，并且可以量化地衡量群集标签对于类标签作为预测变量的有用性。

Dec, 2012

基于聚类索引的自动分类模型选择

本文提出了一种基于数据集聚类指数的方法来实现自动化的分类模型选择，通过回归任务计算特征和依赖变量，精准预测预期的分类性能来推荐合适的模型类别，同时设计了一种结合该模型选择方法的全自动化数据分类系统，在大规模的数据集实验中得出了优于商业和非商业自动化系统的性能表现。

May, 2023

比较聚类方法使用相对有效性指数的研究

这项研究通过对超过 270 万个聚类分区进行实验，发现 RVIs 在非传统任务上并不适用，对此类应用得出的结论可能是误导性的，因此建议使用外部验证和相关领域知识来选择正规化程序、表示方法和距离度量。

Apr, 2024

一种贝叶斯聚类有效性指标

通过引入贝叶斯聚类验证指数（BCVI），本研究基于现有的基础指数，构建了一个可根据使用者应用的可行性，选择次优聚类数量的方法，并通过对真实世界数据集（包括 MRI 脑肿瘤图像）的应用验证了算法的有效性和应用潜力。

Feb, 2024

用精确度 - 召回率曲线下面积进行聚类验证

本论文探讨了在聚类验证中，利用混淆矩阵和派生度量来衡量模型性能表现的可行性，并提出利用 Precision-Recall 曲线及相关度量作为聚类验证指标以及在聚类失衡的情况下更为合适的方法，通过实验验证，这一方法的可靠性与其在有监督学习中的表现相一致。

Apr, 2023

一种基于相关性的模糊聚类有效性指标及次要选项探测器

通过引入一种基于相关性的模糊簇有效性指数（Wiroonsri-Preedasawakul 简称 WP 指数），本研究对数据聚类中的最优聚类数问题进行了评估和比较，结果表明 WP 指数在准确检测最优聚类数和提供准确次优选项方面胜过大多数其他指数，并且即使模糊系数 m 设置为大值，我们的指数仍然有效。

Aug, 2023

无监督异常检测算法的大规模评估揭示

本文综合研究了 12 个最流行的无监督异常检测方法，发现它们被评估时使用了不一致的协议，因此定义了一致的评估协议并用于比较它们在五个广泛使用的表格式数据集上的性能。尽管评估不能确定一种方法在所有数据集上优于其他方法，但它识别出那些突出表现的方法并修正了关于它们相对性能的错误认识。

Apr, 2022

机器学习中的模型评估、模型选择和算法选择

本文综述了机器学习中模型评估、模型选择和算法选择等三个子任务的不同技术，并讨论了每种技术的主要优缺点，给出了推荐实践建议。重点介绍了常见的模型评估和选择技术，如保留集方法和交叉验证技术，并给出了实用技巧。同时提出了多种算法比较策略，包括 5x2 交叉验证和嵌套交叉验证等，推荐在小数据集情况下使用。

Nov, 2018

一种基于分布的软聚类比较和评估方法

本论文提出了一种创新性的解决方案，通过以软聚类 (Soft Clustering) 作为硬聚类 (Hard Clustering) 分布的形式来扩展比较度量，以适应 SC 算法结果中的不确定性。经过深入研究和实验证明此方法的可行性。

Jun, 2022