通过分析现有的聚类算法,我们在五个不同的维度上对主要算法进行分类,以帮助研究人员从不同的角度理解聚类算法,并帮助他们找到适用于解决特定任务的算法。我们还讨论了聚类算法的当前趋势和未来的潜在方向,以及该领域的挑战和未解决的问题。
Jan, 2024
本文提出了两种点模式聚类的方法,一种是基于集合的新距离的非参数方法,另一种是基于随机有限集理论的模型方法,并在数值实验中得到验证。
Feb, 2017
该研究采用信息理论的视角来重新构造聚类问题,避免了许多现有聚类方法所依赖的非常规结构的假设,且捕捉了非线性关系。基于集体相似度而非传统的成对度量,该方法在不同领域内都表现出比现有算法更高的聚类一致性。
Nov, 2005
提出了一种计算理论和半监督聚类算法,将聚类定义为根据所选的聚类原则和度量方法获得数据分组,使每个组不包含异常值,所有其他示例被认为是边缘点,孤立的异常值、异常簇或未知簇。
Jun, 2023
本文比较分析了大数据背景下 K-means 算法的不同优化技术。通过并行化、逼近和采样方法等不同方法,探讨了克服大数据规模问题的不同途径。通过使用不同基准数据集评估了这些技术的性能,并根据 LIMA 支配准则在速度、聚类质量和可扩展性方面进行比较。结果表明,不同的技术适用于不同类型的数据集,并提供了关于 K-means 大数据聚类中速度和准确性之间权衡的见解。总体而言,本文为从业者和研究人员提供了如何优化大数据应用中的 K-means 的全面指南。
Oct, 2023
通过使用基于机器学习的在线聚类模型,该研究论文介绍了一种将恶意软件样本在线聚类为恶意软件家族的方法,提高了恶意软件检测和分类的效率。
May, 2024
该论文介绍了一种基于众包模型的图像聚类方法,可应对无法得知聚类数目的情况,该方法的有效性已通过在多个人工数据集上的应用得到了证明。
Oct, 2016
通过整合基于模型和基于质心的方法,提出了一种高效且自动的聚类技术,解决噪声对聚类质量的影响,并确保无需提前指定聚类数的优点。在模拟和真实数据集上进行了严格评估和统计保证,表明我们提出的方法优于现有先进聚类算法。
Nov, 2023
该文综述了数据流聚类算法的基本概念和特点,对不同算法进行了对比分析,讨论了数据流聚类存在的问题和挑战。
Jul, 2020
本文探讨数据流聚类的不同问题定义、特定困难以及各种方法的基础,以及如何解决不同问题。
Jun, 2010