DRIFT:科学文献历时分析工具包
本文提供了四种文本漂移生成方法,以便生成带有标记漂移的数据集,并使用增量分类器测试它们恢复漂移的能力。结果表明,所有方法在漂移后性能都有所下降,增量支持向量机在准确性和宏 F1 得分方面运行速度最快,恢复了之前的性能水平。
Mar, 2024
本论文旨在确保 “基于机器学习和深度学习” 的系统能够像传统软件一样可靠。论文提出了一种度量数据漂移的方法以及在其发生时自适应地重新训练模型的方法,并生成不同层面的解释以理解漂移原因。
Nov, 2022
本文提出三个语言数据漂移维度:词汇、结构和语义漂移,通过词频差异、句法差异和不可被词频捕捉的语义变化等度量,研究发现该方法比以前的方法更能够预测模型准确性,特别是在预测模型在测试集上的表现时。
May, 2023
本文针对数据流中的概念漂移进行了相关研究,分析法检测,理解和适应等漂移技术的发展趋势,并建立了一个包含三个主要组件的漂移学习框架:概念漂移检测,概念漂移理解和概念漂移适应。同时,本文还列举和讨论了 10 个流行的合成数据集和 14 个公共基准数据集,以评估处理概念漂移的学习算法的性能,涵盖和讨论了概念漂移相关的研究方向。通过提供最新的知识,本综述将直接支持研究人员对概念漂移学习领域的研究发展的理解。
Apr, 2020
机器学习中的漂移是指模型所操作的数据或上下文的统计特性随时间改变而导致其性能下降的现象。为了及时预防潜在的性能退化,保持对机器学习模型性能的持续监控过程至关重要。在我们提出的无监督漂移检测方法中,我们采用了两步过程。第一步涉及将生产数据的样本编码为目标分布,将模型训练数据作为参考分布。在第二步中,我们采用了基于核的统计检验,利用最大均值离差(MMD)距离度量来比较参考和目标分布,并估计任何潜在的漂移。我们的方法还能够识别导致漂移的生产数据子集。使用这些被确定为高漂移样本进行重新训练的模型在在线客户体验质量指标上表现出了改进。
Sep, 2023
这篇论文对文本流场景中的概念漂移适应进行了系统的文献综述,包括文本漂移类别、文本漂移检测类型、模型更新机制、流式挖掘任务、文本表示类型以及文本表示更新机制,并讨论了漂移可视化和模拟,列举了所选论文中使用的真实世界数据集。
Dec, 2023
本文提出了一种基于 transformer 的预测模型 TransDrift 用于保持 word embeddings 与数据分布的一致性,实验证明预测嵌入能够显著提高分类准确性。
Jun, 2022
通过研究媒体共享网站上上传和搜索的内容的统计分布,我们调查了 “内容漂移” 对基于嵌入空间中最近邻搜索的大规模相似度搜索工具的影响。我们提出并分析了基于可用长时间段上的时间信息的真实图像和视频数据集,基于这些学习结果,我们设计了一种名为 DeDrift 的方法,它通过实时更新嵌入量化器来持续调整大规模索引结构,几乎消除了由查询和数据库内容漂移导致的准确度降低,而且比完全索引重建快 100 倍。
Aug, 2023
数据漂移对机器学习模型的生命周期造成重大挑战。本研究通过微基准研究 D3Bench 评估了开源漂移检测工具的效能,评估了 Evidently AI、NannyML 和 Alibi-Detect 在两个智能建筑使用案例中的能力。我们重点评估这些工具在识别和分析数据漂移方面的功能适应性,并考虑了一系列非功能性标准,如与机器学习流水线的集成性、对不同数据类型的适应性、用户友好性、计算效率和资源需求。研究结果表明,Evidently AI 在一般数据漂移检测方面表现出色,而 NannyML 在准确定位漂移发生的时间和评估其对预测准确性的影响方面表现出色。
Apr, 2024