Sep, 2023

使用自动簇数选择的中心轮廓聚类

TL;DR聚类结果评估困难,高度依赖于数据集和观察者的视角,本文讨论 Silhouette 的高效中心点版本,进行了理论分析,提供两种快速版本以直接优化,并讨论了选择最佳聚类数的使用,实验证明与原有 PAMMEDSIL 算法相比,其在具有 30000 个样本和 k=100 的真实数据上的速度提升为 10464 倍。另外,我们提供了一种直接选择最佳聚类数的变体。