Jun, 2023

数据离群值的添加对K均值解决方案景观的演变及其分析的鲁棒聚类比较度量

TL;DR本研究使用能量景观方法探寻$K$-means算法中数据集异常值对其性能的影响,发现其代价函数表面会形成更窄的漏斗形态,每个漏斗之间会有一些不支持聚类的区域,而其中的浅漏斗则对应不同类型的聚类解决方案,而异常值的逐渐增多会导致漏斗内的路径变长以及准确性和成本函数之间的相关性降低。最后,本研究提出了一种新的聚类相似度测量方法,能够忽略异常值的影响,并在多异常值的数据集中进行了应用。