Mar, 2024

CDC:一个用于复杂数据聚类的简单框架

TL;DR在今天的数据驱动数字时代,收集的数据量和复杂性(如多视图、非欧几里德和多关系)呈指数级增长甚至更快。本文提出了一个简单而有效的复杂数据聚类(CDC)框架,可以以线性复杂度高效处理不同类型的数据。首先,我们利用图过滤来融合几何结构和属性信息。然后,通过一种新颖的保持相似性的正则化器自适应地学习高质量的锚点以降低复杂度。我们从理论和实验上证明了我们提出方法的聚类能力。特别地,我们将 CDC 应用于 111M 规模的图数据中。