Oct, 2023

基于分离性和连通性的改进的聚类可分性度量--DCSI

TL;DR对于真实世界数据集中的聚类算法的评估而言,是否数据集中的类别标签与有意义的聚类相对应至关重要。现有文献回顾表明,无论是基于分类的复杂度度量还是簇有效性指标(CVIs)都不能很好地包含基于密度的聚类的关键特征,即类间分离和类内连通性,新开发的密度聚类分离指数(DCSI)可用于量化这两个特征并作为CVI。对合成数据进行的广泛实验表明,DCSI与通过调整兰德指数(ARI)测量的DBSCAN性能强相关,但在不适用于基于密度的硬聚类的存在重叠类的多类数据集中缺乏鲁棒性。对常用真实世界数据集进行的详细评估表明,DCSI能够正确识别不形成有意义聚类的接触或重叠类。