数据流聚类:挑战和问题
本文提出了一种基于聚类的数据流分类框架,通过采用基于密度的流聚类算法,结合动态阈值和有效的主动标签查询策略,处理非平稳数据流,解决了标注的初始集问题和重叠类别之间的分类挑战。同时对聚类中的子簇结构进行探索,有效的解决了类别之间的重叠问题。实验结果和定量比较研究表明,该方法提供了比现有方法更好或可比较的性能。
Jun, 2021
本文提出了一个用于挑战流算法的公共数据存储库,其中包含来自文献的最受欢迎的数据集和与公共健康问题有关的新数据集,旨在缓解涉及流分类器和漂移检测器的实验性评估中的数据集选择问题,并对数据分布中不同类型变化及其导致的原因和问题进行了深入的讨论。
Apr, 2020
本文提出了一种基于密度山演化的流式聚类算法 EDMStream,该算法通过跟踪密度山的变化来更新聚类结果和捕捉聚类演化活动,同时提供了高效的数据结构和过滤方案,确保了实时更新,实现了在线聚类。实验结果表明,相比于现有的流式聚类算法,如 D-stream,DenStream,DBSTREAM 和 MR-stream,我们的算法对于群集更新的响应速度快得多(比竞争对手的最佳表现快 7-15 倍),同时达到了相当的群集质量,成功捕捉了群集演化活动。
Oct, 2017
本文回顾了最新的数据聚类方法,包括传统算法 K-means 的局限性以及 Swarm-based 算法如何解决大数据集聚类的问题,并比较它们哪个适合特定的实际问题。
May, 2023
本文总结了现有开源的 AutoML 工具的最新进展,并将它们应用于数据流挖掘的领域。通过比较,结果表明现成的 AutoML 工具可以提供令人满意的结果,但在出现概念飘移时,必须应用检测或适应技术以维持预测准确性。
Jun, 2021
这篇论文对文本流场景中的概念漂移适应进行了系统的文献综述,包括文本漂移类别、文本漂移检测类型、模型更新机制、流式挖掘任务、文本表示类型以及文本表示更新机制,并讨论了漂移可视化和模拟,列举了所选论文中使用的真实世界数据集。
Dec, 2023