演化数据流的 McDiarmid 漂移检测方法
该论文提出了一种基于特征分类器的不依赖于数据分布或特定应用的无监督增量漂移检测算法,以实现在数据流中可靠地检测和适应概念漂移,并展示了在 6 个漂移诱导数据集和 4 个来自网络安全领域的附加数据集上的实验评估结果,表明该算法与无监督特征漂移检测器相比具有更少的误警,可以信任且适用性广泛。
Mar, 2017
深度神经网络(DNNs)是最广泛使用的机器学习算法之一。本文关注集成私有 DNNs 的概念来检测概念漂移,并引入一种名为 IPDD 的集成方法,不需要标签即可检测漂移。实验证明该方法在隐私性和效用上具有可比性。
Jun, 2024
基于 Neighbor-Searching Discrepancy 的新统计量,提出了一种能够高准确率检测真实概念漂移并忽略虚假漂移的方法,同时还能指示分类边界变化的方法。实验结果表明,该方法在不同分布和维度下具有鲁棒性,并且在漂移检测方面优于现有方法。
May, 2024
该研究提出 Tornado 框架,它实现了一些不同学习风格的分类器和各种漂移检测算法,用于构建模型以针对不断变化的数据流,评估结果表明,最佳分类器与检测器选择不仅取决于数据流的特征而且会随着流的变化而演变。
Sep, 2017
提出了自适应物联网数据分析框架,在优化的 LightGBM 和概念漂移适应的基础上实现异常检测。通过实验验证,该框架具有高准确性和效率,并且不需要人类干预即可进行连续学习和漂移自适应。
Apr, 2021
我们提出了一种基于平行坐标的新型可视化模型,通过连接连续时间窗口中分布的均值,将漂移显示为这些分布的变化,用于解释机器学习模型在选择漂移点时的决策,并能检测和描述概念漂移,为进一步研究开辟了可能性。
Jun, 2024
本文提出了一种可靠的 JIT-SDP 模型,通过识别未标记的简化和重采样数据的解释的变化,直接使用 CD 点检测。使用阈值独立和阈值依赖的基准方法进行比较,并使用 Friedman 统计检验评估方法的有效性。结果表明,当应用于重新平衡数据时,我们提出的方法与基于阈值独立标准的基准方法更兼容;当应用于简单数据时,我们提出的方法与基于阈值依赖标准的基准方法更兼容。
May, 2023
该研究通过比较基于错误率和数据分布的概念漂移检测器的性能,并评估它们在识别漂移时的可靠性,为实践者提供了指导建议和警报系统的适用性分析。
Nov, 2022
机器学习中的漂移是指模型所操作的数据或上下文的统计特性随时间改变而导致其性能下降的现象。为了及时预防潜在的性能退化,保持对机器学习模型性能的持续监控过程至关重要。在我们提出的无监督漂移检测方法中,我们采用了两步过程。第一步涉及将生产数据的样本编码为目标分布,将模型训练数据作为参考分布。在第二步中,我们采用了基于核的统计检验,利用最大均值离差(MMD)距离度量来比较参考和目标分布,并估计任何潜在的漂移。我们的方法还能够识别导致漂移的生产数据子集。使用这些被确定为高漂移样本进行重新训练的模型在在线客户体验质量指标上表现出了改进。
Sep, 2023