Apr, 2024

一种无参数的缺失数据聚类算法

TL;DR在真实世界中,缺少数据集普遍存在。现有的用于缺失数据集的聚类算法首先对缺失值进行插补,然后进行聚类。然而,插补和聚类过程都需要输入参数,太多的输入参数会增加获得准确聚类结果的难度。虽然一些研究表明决策图可以替代聚类算法的输入参数,但当前的决策图需要对象之间具有相等的维度,因此不适用于缺失数据集。为此,我们提出了一种单维度聚类算法,即 SDC。SDC 通过分割维度和分区交集融合,去除插补过程,并适应决策图到缺失数据集中,能够获得在缺失数据集上无需输入参数的有效聚类结果。实验证明,在三个评估指标上,SDC 的性能至少比基准算法提高 13.7%(NMI),23.8%(ARI)和 8.1%(Purity)。