IJCAIJun, 2020

具有数据选择偏差的非相关聚类

TL;DR本文提出了一种新的基于 Decorrelation 正则化 K-Means 算法(DCKM)来解决数据选择偏差对于聚类算法的影响的方法,该方法通过学习全局样本权重可以平衡样本分布,进而排除特征间的意外相关性,并且通过将学习到的权重与 K 均值结合,实现了在内在数据分布上聚类,大量实验结果表明,DCKM 算法在真实世界数据集上取得了显著的性能增益。