分布式 Silhouette 算法：对大数据进行聚类评估

Mar, 2023

分布式 Silhouette 算法：对大数据进行聚类评估

Distributed Silhouette Algorithm: Evaluating Clustering on Big Data

Marco Gaido

TL;DR本文提出了一种可在分布式环境中高效并行运行的线性复杂度算法来计算聚类的 Silhouette 指数。该算法可以在 Apache Spark ML 库中免费使用。

Abstract

In the big data era, the key feature that each algorithm needs to have is the possibility of efficiently running in parallel in a distributed environment. The popular →

big data clustering silhouette metric linear complexity distributed environment

发现论文，激发创造

使用自动簇数选择的中心轮廓聚类

聚类结果评估困难，高度依赖于数据集和观察者的视角，本文讨论 Silhouette 的高效中心点版本，进行了理论分析，提供两种快速版本以直接优化，并讨论了选择最佳聚类数的使用，实验证明与原有 PAMMEDSIL 算法相比，其在具有 30000 个样本和 k=100 的真实数据上的速度提升为 10464 倍。另外，我们提供了一种直接选择最佳聚类数的变体。

Sep, 2023

使用软轮廓得分的深度聚类：紧凑且互相独立的聚类

这篇论文介绍了一种基于深度聚类的无监督学习方法，通过优化 soft silhouette 目标函数，引导学习到的表示形成紧凑且分离良好的聚类解决方案，使用了自编码器构建的深度学习结构，对多个基准数据集进行了实验，并获得了令人满意的聚类结果。

Feb, 2024

重游轮廓：从微观到宏观聚合

通过使用合成示例，研究论文表明宏平均的轮廓系数分数对聚类不平衡和背景噪声具有鲁棒性，与典型的微平均分数相比，在多种情况下提供更好的估计聚类数量的地面真实性。

Jan, 2024

针对大数据的 K-means 优化：一项比较研究

本文比较分析了大数据背景下 K-means 算法的不同优化技术。通过并行化、逼近和采样方法等不同方法，探讨了克服大数据规模问题的不同途径。通过使用不同基准数据集评估了这些技术的性能，并根据 LIMA 支配准则在速度、聚类质量和可扩展性方面进行比较。结果表明，不同的技术适用于不同类型的数据集，并提供了关于 K-means 大数据聚类中速度和准确性之间权衡的见解。总体而言，本文为从业者和研究人员提供了如何优化大数据应用中的 K-means 的全面指南。

Oct, 2023

高效的层次聚类主动算法

该研究提出了一个基于层次聚类和谱聚类算法的框架，来解决大型数据集处理的问题，该算法在小型数据子集上运行，具有较高的性能、测量复杂度和运行时复杂度。经过广泛的实验验证，该框架实际上非常具有吸引力。

Jun, 2012

分布式聚类与异常检测的实用算法

本文提出了一种基于简要构建的数据摘要的分布式无监督学习算法，对异常点的全局识别有很好的近似保证，并在真实和人工数据上超过了所有基线算法。

May, 2018

一种基于分布的软聚类比较和评估方法

本论文提出了一种创新性的解决方案，通过以软聚类 (Soft Clustering) 作为硬聚类 (Hard Clustering) 分布的形式来扩展比较度量，以适应 SC 算法结果中的不确定性。经过深入研究和实验证明此方法的可行性。

Jun, 2022

K-Means 算法并行化及应用于大数据聚类

K-Means 聚类使用 LLoyd 算法是一种迭代方法，将给定数据集分成 K 个不同的簇；本文将比较并分析两种不同的方法，一种是基于 OpenMP 的平坦同步方法，另一种是基于 GPU 的并行化方法，通过比较结果测量性能改进。

May, 2024

大规模均值算法中通过竞争随机样本大小优化实现卓越的并行大数据聚类

该研究论文介绍了一种创新的 K 均值聚类算法，该算法通过整合并行处理、随机抽样和竞争优化等方法，实现了适用于大数据应用的可扩展变体。算法通过动态调整每个工作器的样本大小来优化性能，并且通过在不同样本大小的工作器之间引入竞争机制，进一步提高了 Big-means 算法的效率。同时，在并行计算环境下采用了随机、竞争抽样策略，使得算法在计算时间和聚类质量之间取得平衡。

Mar, 2024

从大到小的数据集：聚类算法选择的尺寸泛化

在半监督环境中，通过引入聚类算法准确性的大小泛化概念，我们可以通过对较小的实例集进行评估，并保证在原始大型实例上具有最好准确性的算法也在小实例上具有最好准确性。

Feb, 2024