群体智能在数据聚类机制中的作用

May, 2023

群体智能在数据聚类机制中的作用

Influence of Swarm Intelligence in Data Clustering Mechanisms

Pitawelayalage Dasun Dileepa Pitawela, Gamage Upeksha Ganegoda

TL;DR本文回顾了最新的数据聚类方法，包括传统算法 K-means 的局限性以及 Swarm-based 算法如何解决大数据集聚类的问题，并比较它们哪个适合特定的实际问题。

Abstract

data mining focuses on discovering interesting, non-trivial and meaningful information from large datasets. data clustering is one of the unsupervised and descriptive →

data mining data clustering k-means swarm-based algorithms hybrid approaches

发现论文，激发创造

聚类算法快速综述

通过分析现有的聚类算法，我们在五个不同的维度上对主要算法进行分类，以帮助研究人员从不同的角度理解聚类算法，并帮助他们找到适用于解决特定任务的算法。我们还讨论了聚类算法的当前趋势和未来的潜在方向，以及该领域的挑战和未解决的问题。

Jan, 2024

点形式数据的聚类

本文提出了两种点模式聚类的方法，一种是基于集合的新距离的非参数方法，另一种是基于随机有限集理论的模型方法，并在数值实验中得到验证。

Feb, 2017

基于信息的聚类

该研究采用信息理论的视角来重新构造聚类问题，避免了许多现有聚类方法所依赖的非常规结构的假设，且捕捉了非线性关系。基于集体相似度而非传统的成对度量，该方法在不同领域内都表现出比现有算法更高的聚类一致性。

Nov, 2005

聚类的计算理论与半监督算法

提出了一种计算理论和半监督聚类算法，将聚类定义为根据所选的聚类原则和度量方法获得数据分组，使每个组不包含异常值，所有其他示例被认为是边缘点，孤立的异常值、异常簇或未知簇。

Jun, 2023

针对大数据的 K-means 优化：一项比较研究

本文比较分析了大数据背景下 K-means 算法的不同优化技术。通过并行化、逼近和采样方法等不同方法，探讨了克服大数据规模问题的不同途径。通过使用不同基准数据集评估了这些技术的性能，并根据 LIMA 支配准则在速度、聚类质量和可扩展性方面进行比较。结果表明，不同的技术适用于不同类型的数据集，并提供了关于 K-means 大数据聚类中速度和准确性之间权衡的见解。总体而言，本文为从业者和研究人员提供了如何优化大数据应用中的 K-means 的全面指南。

Oct, 2023

已知和新兴恶意软件家族的在线聚类

通过使用基于机器学习的在线聚类模型，该研究论文介绍了一种将恶意软件样本在线聚类为恶意软件家族的方法，提高了恶意软件检测和分类的效率。

May, 2024

无需地面真值的图像聚类

该论文介绍了一种基于众包模型的图像聚类方法，可应对无法得知聚类数目的情况，该方法的有效性已通过在多个人工数据集上的应用得到了证明。

Oct, 2016

鲁棒自动数据聚类：狄利克雷过程遇见中位数均值

通过整合基于模型和基于质心的方法，提出了一种高效且自动的聚类技术，解决噪声对聚类质量的影响，并确保无需提前指定聚类数的优点。在模拟和真实数据集上进行了严格评估和统计保证，表明我们提出的方法优于现有先进聚类算法。

Nov, 2023

数据流聚类：一篇综述

该文综述了数据流聚类算法的基本概念和特点，对不同算法进行了对比分析，讨论了数据流聚类存在的问题和挑战。

Jul, 2020

数据流聚类：挑战和问题

本文探讨数据流聚类的不同问题定义、特定困难以及各种方法的基础，以及如何解决不同问题。

Jun, 2010