本文提供了四种文本漂移生成方法,以便生成带有标记漂移的数据集,并使用增量分类器测试它们恢复漂移的能力。结果表明,所有方法在漂移后性能都有所下降,增量支持向量机在准确性和宏 F1 得分方面运行速度最快,恢复了之前的性能水平。
Mar, 2024
本论文旨在确保 “基于机器学习和深度学习” 的系统能够像传统软件一样可靠。论文提出了一种度量数据漂移的方法以及在其发生时自适应地重新训练模型的方法,并生成不同层面的解释以理解漂移原因。
Nov, 2022
机器学习中的漂移是指模型所操作的数据或上下文的统计特性随时间改变而导致其性能下降的现象。为了及时预防潜在的性能退化,保持对机器学习模型性能的持续监控过程至关重要。在我们提出的无监督漂移检测方法中,我们采用了两步过程。第一步涉及将生产数据的样本编码为目标分布,将模型训练数据作为参考分布。在第二步中,我们采用了基于核的统计检验,利用最大均值离差(MMD)距离度量来比较参考和目标分布,并估计任何潜在的漂移。我们的方法还能够识别导致漂移的生产数据子集。使用这些被确定为高漂移样本进行重新训练的模型在在线客户体验质量指标上表现出了改进。
Sep, 2023
这篇论文对文本流场景中的概念漂移适应进行了系统的文献综述,包括文本漂移类别、文本漂移检测类型、模型更新机制、流式挖掘任务、文本表示类型以及文本表示更新机制,并讨论了漂移可视化和模拟,列举了所选论文中使用的真实世界数据集。
Dec, 2023
该研究通过比较基于错误率和数据分布的概念漂移检测器的性能,并评估它们在识别漂移时的可靠性,为实践者提供了指导建议和警报系统的适用性分析。
该论文提出了一种基于特征分类器的不依赖于数据分布或特定应用的无监督增量漂移检测算法,以实现在数据流中可靠地检测和适应概念漂移,并展示了在 6 个漂移诱导数据集和 4 个来自网络安全领域的附加数据集上的实验评估结果,表明该算法与无监督特征漂移检测器相比具有更少的误警,可以信任且适用性广泛。
Mar, 2017
本文探讨了概念漂移对机器学习实际应用的影响以及应对概念漂移的方法,提出了定量分析方法和漂移分析工具,并通过三个实际学习任务的应用验证了它们的有效性。
Apr, 2017
概念漂移对机器学习模型产生不准确的影响,并且在流式数据背景下,多数研究假设连续的数据点之间是独立的。本研究发现时序依赖性对采样过程有很大影响,因此需要对现有定义进行重大修改,特别是平稳性的概念不适用于这种设置,而需要探讨替代方案。通过数值实验证明了这些替代形式的概念能够描述可观察的学习行为。
本文针对数据流中的概念漂移进行了相关研究,分析法检测,理解和适应等漂移技术的发展趋势,并建立了一个包含三个主要组件的漂移学习框架:概念漂移检测,概念漂移理解和概念漂移适应。同时,本文还列举和讨论了 10 个流行的合成数据集和 14 个公共基准数据集,以评估处理概念漂移的学习算法的性能,涵盖和讨论了概念漂移相关的研究方向。通过提供最新的知识,本综述将直接支持研究人员对概念漂移学习领域的研究发展的理解。
Apr, 2020
在线学习中,适应漂移数据流是一个重要挑战。本文提出了一种基于局部性和尺度的概念漂移分类方法,并构建了一套 2760 个基准问题,用于评估不同难度级别的漂移检测器。通过对 9 种前沿漂移检测器的综合评估,揭示了它们的优势和弱点,并为未来的研究提供了策略。研究结果还表明漂移的局部性如何影响分类器性能,并提出了不同漂移类别的恢复时间最小化策略。最后,总结了对未来概念漂移研究的经验教训和建议。
Nov, 2023