Dec, 2016

高维度、低样本量数据完美聚类

TL;DR本文针对高维低样本量情况下聚类算法性能下降的问题,介绍了一种基于云图的 MADD 差异度量方法,并证明了其在高维数据聚类上的有效性;根据理论和实验结果,比较了多种算法及其聚类效果评估方法,发现在使用 MADD 代替欧氏距离时,已有算法的表现得到提升。同时,作者提出了一种基于罚函数 Dunn 指数的新的聚类数目估计方法,在固定样本数量、维数增加的情况下使方法相对于样本数更稳定。最后,研究运用了多组真实和模拟数据集来证明 MADD 方法对高维数据聚类分析中的重要性。