Mar, 2024

大规模均值算法中通过竞争随机样本大小优化实现卓越的并行大数据聚类

TL;DR该研究论文介绍了一种创新的K均值聚类算法,该算法通过整合并行处理、随机抽样和竞争优化等方法,实现了适用于大数据应用的可扩展变体。算法通过动态调整每个工作器的样本大小来优化性能,并且通过在不同样本大小的工作器之间引入竞争机制,进一步提高了Big-means算法的效率。同时,在并行计算环境下采用了随机、竞争抽样策略,使得算法在计算时间和聚类质量之间取得平衡。