分布式 Silhouette 算法:对大数据进行聚类评估
聚类结果评估困难,高度依赖于数据集和观察者的视角,本文讨论 Silhouette 的高效中心点版本,进行了理论分析,提供两种快速版本以直接优化,并讨论了选择最佳聚类数的使用,实验证明与原有 PAMMEDSIL 算法相比,其在具有 30000 个样本和 k=100 的真实数据上的速度提升为 10464 倍。另外,我们提供了一种直接选择最佳聚类数的变体。
Sep, 2023
这篇论文介绍了一种基于深度聚类的无监督学习方法,通过优化 soft silhouette 目标函数,引导学习到的表示形成紧凑且分离良好的聚类解决方案,使用了自编码器构建的深度学习结构,对多个基准数据集进行了实验,并获得了令人满意的聚类结果。
Feb, 2024
通过使用合成示例,研究论文表明宏平均的轮廓系数分数对聚类不平衡和背景噪声具有鲁棒性,与典型的微平均分数相比,在多种情况下提供更好的估计聚类数量的地面真实性。
Jan, 2024
本文比较分析了大数据背景下 K-means 算法的不同优化技术。通过并行化、逼近和采样方法等不同方法,探讨了克服大数据规模问题的不同途径。通过使用不同基准数据集评估了这些技术的性能,并根据 LIMA 支配准则在速度、聚类质量和可扩展性方面进行比较。结果表明,不同的技术适用于不同类型的数据集,并提供了关于 K-means 大数据聚类中速度和准确性之间权衡的见解。总体而言,本文为从业者和研究人员提供了如何优化大数据应用中的 K-means 的全面指南。
Oct, 2023
该研究提出了一个基于层次聚类和谱聚类算法的框架,来解决大型数据集处理的问题,该算法在小型数据子集上运行,具有较高的性能、测量复杂度和运行时复杂度。经过广泛的实验验证,该框架实际上非常具有吸引力。
Jun, 2012
本论文提出了一种创新性的解决方案,通过以软聚类 (Soft Clustering) 作为硬聚类 (Hard Clustering) 分布的形式来扩展比较度量,以适应 SC 算法结果中的不确定性。经过深入研究和实验证明此方法的可行性。
Jun, 2022
K-Means 聚类使用 LLoyd 算法是一种迭代方法,将给定数据集分成 K 个不同的簇;本文将比较并分析两种不同的方法,一种是基于 OpenMP 的平坦同步方法,另一种是基于 GPU 的并行化方法,通过比较结果测量性能改进。
May, 2024
该研究论文介绍了一种创新的 K 均值聚类算法,该算法通过整合并行处理、随机抽样和竞争优化等方法,实现了适用于大数据应用的可扩展变体。算法通过动态调整每个工作器的样本大小来优化性能,并且通过在不同样本大小的工作器之间引入竞争机制,进一步提高了 Big-means 算法的效率。同时,在并行计算环境下采用了随机、竞争抽样策略,使得算法在计算时间和聚类质量之间取得平衡。
Mar, 2024
在半监督环境中,通过引入聚类算法准确性的大小泛化概念,我们可以通过对较小的实例集进行评估,并保证在原始大型实例上具有最好准确性的算法也在小实例上具有最好准确性。
Feb, 2024