演化数据流的 McDiarmid 漂移检测方法

Oct, 2017

演化数据流的 McDiarmid 漂移检测方法

McDiarmid Drift Detection Methods for Evolving Data Streams

Ali Pesaranghader, Herna Viktor, Eric Paquet

TL;DR提出了使用 McDiarmid 不等式检测概念漂移的新方法，在处理医疗应用和紧急响应等需要实时检测变化的情境中验证其优越性。

Abstract

Increasingly, internet of things (IoT) domains, such as sensor networks, smart cities, and social networks, generate vast amounts of data. Such data are not only unbounded and rapidly evolving. Rather, the content thereof dynamically evolves over time, often in unforeseen ways. These v

internet of things concept drift classification mcdiarmid drift detection method real-time

发现论文，激发创造

基于流式无标签数据的概念漂移可靠检测

该论文提出了一种基于特征分类器的不依赖于数据分布或特定应用的无监督增量漂移检测算法，以实现在数据流中可靠地检测和适应概念漂移，并展示了在 6 个漂移诱导数据集和 4 个来自网络安全领域的附加数据集上的实验评估结果，表明该算法与无监督特征漂移检测器相比具有更少的误警，可以信任且适用性广泛。

Mar, 2017

使用整体私有模型集的概念漂移检测

深度神经网络（DNNs）是最广泛使用的机器学习算法之一。本文关注集成私有 DNNs 的概念来检测概念漂移，并引入一种名为 IPDD 的集成方法，不需要标签即可检测漂移。实验证明该方法在隐私性和效用上具有可比性。

Jun, 2024

一种基于邻居搜索的差异性漂移检测方案，用于学习进化数据

基于 Neighbor-Searching Discrepancy 的新统计量，提出了一种能够高准确率检测真实概念漂移并忽略虚假漂移的方法，同时还能指示分类边界变化的方法。实验结果表明，该方法在不同分布和维度下具有鲁棒性，并且在漂移检测方面优于现有方法。

May, 2024

演化数据流的多样自适应学习器库和堆叠式快速 Hoeffding 漂移检测方法

该研究提出 Tornado 框架，它实现了一些不同学习风格的分类器和各种漂移检测算法，用于构建模型以针对不断变化的数据流，评估结果表明，最佳分类器与检测器选择不仅取决于数据流的特征而且会随着流的变化而演变。

Sep, 2017

针对物联网数据流的轻量级概念漂移检测和适应框架

提出了自适应物联网数据分析框架，在优化的 LightGBM 和概念漂移适应的基础上实现异常检测。通过实验验证，该框架具有高准确性和效率，并且不需要人类干预即可进行连续学习和漂移自适应。

Apr, 2021

支持向量机的概念漂移可视化与滑动窗口

我们提出了一种基于平行坐标的新型可视化模型，通过连接连续时间窗口中分布的均值，将漂移显示为这些分布的变化，用于解释机器学习模型在选择漂移点时的决策，并能检测和描述概念漂移，为进一步研究开辟了可能性。

Jun, 2024

使用实例解释检测软件缺陷可靠性预测中的概念漂移

本文提出了一种可靠的 JIT-SDP 模型，通过识别未标记的简化和重采样数据的解释的变化，直接使用 CD 点检测。使用阈值独立和阈值依赖的基准方法进行比较，并使用 Friedman 统计检验评估方法的有效性。结果表明，当应用于重新平衡数据时，我们提出的方法与基于阈值独立标准的基准方法更兼容；当应用于简单数据时，我们提出的方法与基于阈值依赖标准的基准方法更兼容。

May, 2023

概念漂移检测器是可靠的警报系统吗？-- 一项比较研究

该研究通过比较基于错误率和数据分布的概念漂移检测器的性能，并评估它们在识别漂移时的可靠性，为实践者提供了指导建议和警报系统的适用性分析。

Nov, 2022

揭示文本数据中的漂移：一种检测和缓解机器学习模型漂移的无监督方法

机器学习中的漂移是指模型所操作的数据或上下文的统计特性随时间改变而导致其性能下降的现象。为了及时预防潜在的性能退化，保持对机器学习模型性能的持续监控过程至关重要。在我们提出的无监督漂移检测方法中，我们采用了两步过程。第一步涉及将生产数据的样本编码为目标分布，将模型训练数据作为参考分布。在第二步中，我们采用了基于核的统计检验，利用最大均值离差（MMD）距离度量来比较参考和目标分布，并估计任何潜在的漂移。我们的方法还能够识别导致漂移的生产数据子集。使用这些被确定为高漂移样本进行重新训练的模型在在线客户体验质量指标上表现出了改进。

Sep, 2023

流式短文本可靠可解释的漂移检测

本研究提出了一种可靠的端到端框架，用于大型任务导向对话系统中模型无关变点检测和解释，并通过模拟对话系统中的客户请求，评估了该方法并展示了其效果。

May, 2023