Jan, 2015

大数据聚类草图与验证

TL;DR本文提出了一种用于大数据分析的高效聚类框架 ——SkeVa family,它包括基于 k 均值聚类和核函数聚类的算法,并使用随机采样和一致性 (RANSAC) 思想进行降维和集合简化。此外还引入了一种基于离散度准则的算法。通过在大规模数据集上的实验,发现这些算法与最先进的随机投影方案相比,具有非常良好的竞争性能。