数据流聚类：挑战和问题

Jun, 2010

Data Stream Clustering: Challenges and Issues

Madjid Khalilian, Norwati Mustapha

TL;DR本文探讨数据流聚类的不同问题定义、特定困难以及各种方法的基础，以及如何解决不同问题。

Abstract

Very large databases are required to store massive amounts of data that are continuously inserted and queried. Analyzing huge data sets and extracting valuable pattern in many applications are interesting for researchers. We can identify two main groups of techniques for huge data bases minin

data stream clustering mining unsupervised methods concept drift

发现论文，激发创造

数据流聚类：一篇综述

该文综述了数据流聚类算法的基本概念和特点，对不同算法进行了对比分析，讨论了数据流聚类存在的问题和挑战。

Jul, 2020

基于聚类的数据流分类框架

本文提出了一种基于聚类的数据流分类框架，通过采用基于密度的流聚类算法，结合动态阈值和有效的主动标签查询策略，处理非平稳数据流，解决了标注的初始集问题和重叠类别之间的分类挑战。同时对聚类中的子簇结构进行探索，有效的解决了类别之间的重叠问题。实验结果和定量比较研究表明，该方法提供了比现有方法更好或可比较的性能。

Jun, 2021

基于真实数据的流式学习算法基准测试挑战

本文提出了一个用于挑战流算法的公共数据存储库，其中包含来自文献的最受欢迎的数据集和与公共健康问题有关的新数据集，旨在缓解涉及流分类器和漂移检测器的实验性评估中的数据集选择问题，并对数据分布中不同类型变化及其导致的原因和问题进行了深入的讨论。

Apr, 2020

通过探索密度山的演变对数据流进行聚类

本文提出了一种基于密度山演化的流式聚类算法 EDMStream，该算法通过跟踪密度山的变化来更新聚类结果和捕捉聚类演化活动，同时提供了高效的数据结构和过滤方案，确保了实时更新，实现了在线聚类。实验结果表明，相比于现有的流式聚类算法，如 D-stream，DenStream，DBSTREAM 和 MR-stream，我们的算法对于群集更新的响应速度快得多（比竞争对手的最佳表现快 7-15 倍），同时达到了相当的群集质量，成功捕捉了群集演化活动。

Oct, 2017

高效流式学习

本文介绍了基于数据流的机器学习的概念，提出了流式高效学习的概念，通过初步理论框架的介绍，探讨了在资源受限和时间要求的情况下，如何处理收到的数据以提高学习性能。

May, 2023

大数据分类技术综述

本文研究了不同的有监督分类技术，探讨了其优缺点。

Mar, 2015

群体智能在数据聚类机制中的作用

本文回顾了最新的数据聚类方法，包括传统算法 K-means 的局限性以及 Swarm-based 算法如何解决大数据集聚类的问题，并比较它们哪个适合特定的实际问题。

May, 2023

数据流的自动机器学习技术

本文总结了现有开源的 AutoML 工具的最新进展，并将它们应用于数据流挖掘的领域。通过比较，结果表明现成的 AutoML 工具可以提供令人满意的结果，但在出现概念飘移时，必须应用检测或适应技术以维持预测准确性。

Jun, 2021

数据流的历史背景

数据流机器学习是一个活跃且不断发展的研究领域，本文回顾了数据流研究的历史背景，并将其与机器学习在数据流中的常见假设联系起来。

Oct, 2023

文本流挖掘中的概念漂移适应性：综述

这篇论文对文本流场景中的概念漂移适应进行了系统的文献综述，包括文本漂移类别、文本漂移检测类型、模型更新机制、流式挖掘任务、文本表示类型以及文本表示更新机制，并讨论了漂移可视化和模拟，列举了所选论文中使用的真实世界数据集。

Dec, 2023