Jun, 2024
超越ImageNet-1K的深度聚类方法的扩展
Scaling Up Deep Clustering Methods Beyond ImageNet-1K
TL;DR在大规模基准数据集上,探索了基于特征的深度聚类方法的性能表现,并分析了数据相关因素对其影响,包括类别不平衡、类别粒度、易于识别的类别和捕获多类别的能力。通过基于ImageNet21K的多个新基准评估实验,发现基于特征的$k$-means在平衡数据集上评估不公平,而深度聚类方法在大多数大规模基准数据集上表现优于$k$-means。有趣的是,$k$-means在易于分类的基准上表现不佳,但在最高数据规模(如ImageNet21K)上的性能差距减小。最后,发现非主要聚类预测能够捕获有意义的类别(即更粗略的类别)。