DRIFT：科学文献历时分析工具包

EMNLPJul, 2021

DRIFT: A Toolkit for Diachronic Analysis of Scientific Literature

Abheesht Sharma, Gunjan Chhablani, Harshit Pandey, Rajaswa Patil

TL;DR本研究介绍了一种用于时序研究语料库的应用程序，名为 DRIFT，可用于追踪研究趋势和发展。该工具旨在分析关键词提取、预测趋势、单词的语义漂移等现象。我们在 cs.CL corpus 进行了案例研究，以演示此工具的实用性和效果。

Abstract

In this work, we present to the nlp community, and to the wider research community as a whole, an application for the diachronic analysis of research →

diachronic analysis research trends corpora nlp drift

发现论文，激发创造

生成文本流中的漂移方法

本文提供了四种文本漂移生成方法，以便生成带有标记漂移的数据集，并使用增量分类器测试它们恢复漂移的能力。结果表明，所有方法在漂移后性能都有所下降，增量支持向量机在准确性和宏 F1 得分方面运行速度最快，恢复了之前的性能水平。

Mar, 2024

DetAIL：一款自动检测和分析语言漂移的工具

本论文旨在确保 “基于机器学习和深度学习” 的系统能够像传统软件一样可靠。论文提出了一种度量数据漂移的方法以及在其发生时自适应地重新训练模型的方法，并生成不同层面的解释以理解漂移原因。

Nov, 2022

流式短文本可靠可解释的漂移检测

本研究提出了一种可靠的端到端框架，用于大型任务导向对话系统中模型无关变点检测和解释，并通过模拟对话系统中的客户请求，评估了该方法并展示了其效果。

May, 2023

语言数据集漂移的表征与测量

本文提出三个语言数据漂移维度：词汇、结构和语义漂移，通过词频差异、句法差异和不可被词频捕捉的语义变化等度量，研究发现该方法比以前的方法更能够预测模型准确性，特别是在预测模型在测试集上的表现时。

May, 2023

概念漂移下的学习：一份综述

本文针对数据流中的概念漂移进行了相关研究，分析法检测，理解和适应等漂移技术的发展趋势，并建立了一个包含三个主要组件的漂移学习框架：概念漂移检测，概念漂移理解和概念漂移适应。同时，本文还列举和讨论了 10 个流行的合成数据集和 14 个公共基准数据集，以评估处理概念漂移的学习算法的性能，涵盖和讨论了概念漂移相关的研究方向。通过提供最新的知识，本综述将直接支持研究人员对概念漂移学习领域的研究发展的理解。

Apr, 2020

揭示文本数据中的漂移：一种检测和缓解机器学习模型漂移的无监督方法

机器学习中的漂移是指模型所操作的数据或上下文的统计特性随时间改变而导致其性能下降的现象。为了及时预防潜在的性能退化，保持对机器学习模型性能的持续监控过程至关重要。在我们提出的无监督漂移检测方法中，我们采用了两步过程。第一步涉及将生产数据的样本编码为目标分布，将模型训练数据作为参考分布。在第二步中，我们采用了基于核的统计检验，利用最大均值离差（MMD）距离度量来比较参考和目标分布，并估计任何潜在的漂移。我们的方法还能够识别导致漂移的生产数据子集。使用这些被确定为高漂移样本进行重新训练的模型在在线客户体验质量指标上表现出了改进。

Sep, 2023

文本流挖掘中的概念漂移适应性：综述

这篇论文对文本流场景中的概念漂移适应进行了系统的文献综述，包括文本漂移类别、文本漂移检测类型、模型更新机制、流式挖掘任务、文本表示类型以及文本表示更新机制，并讨论了漂移可视化和模拟，列举了所选论文中使用的真实世界数据集。

Dec, 2023

TransDrift: 使用 Transformer 建模词嵌入漂移

本文提出了一种基于 transformer 的预测模型 TransDrift 用于保持 word embeddings 与数据分布的一致性，实验证明预测嵌入能够显著提高分类准确性。

Jun, 2022

DeDrift：内容漂移下的鲁棒相似度搜索

通过研究媒体共享网站上上传和搜索的内容的统计分布，我们调查了 “内容漂移” 对基于嵌入空间中最近邻搜索的大规模相似度搜索工具的影响。我们提出并分析了基于可用长时间段上的时间信息的真实图像和视频数据集，基于这些学习结果，我们设计了一种名为 DeDrift 的方法，它通过实时更新嵌入量化器来持续调整大规模索引结构，几乎消除了由查询和数据库内容漂移导致的准确度降低，而且比完全索引重建快 100 倍。

Aug, 2023

开源漂移检测工具的实践应用：两个使用案例的洞见

数据漂移对机器学习模型的生命周期造成重大挑战。本研究通过微基准研究 D3Bench 评估了开源漂移检测工具的效能，评估了 Evidently AI、NannyML 和 Alibi-Detect 在两个智能建筑使用案例中的能力。我们重点评估这些工具在识别和分析数据漂移方面的功能适应性，并考虑了一系列非功能性标准，如与机器学习流水线的集成性、对不同数据类型的适应性、用户友好性、计算效率和资源需求。研究结果表明，Evidently AI 在一般数据漂移检测方面表现出色，而 NannyML 在准确定位漂移发生的时间和评估其对预测准确性的影响方面表现出色。

Apr, 2024