语言数据集漂移的表征与测量

ACLMay, 2023

Characterizing and Measuring Linguistic Dataset Drift

Tyler A. Chang, Kishaloy Halder, Neha Anna John, Yogarshi Vyas, Yassine Benajiba...

TL;DR本文提出三个语言数据漂移维度：词汇、结构和语义漂移，通过词频差异、句法差异和不可被词频捕捉的语义变化等度量，研究发现该方法比以前的方法更能够预测模型准确性，特别是在预测模型在测试集上的表现时。

Abstract

nlp models often degrade in performance when real world data distributions differ markedly from training data. However, existing dataset drift metrics in →

nlp dataset drift linguistic performance semantic drift model prediction

发现论文，激发创造

多视角时间概念漂移下掩码语言模型的动态基准测试

该研究在 Wikidata 数据集上，评估了 11 个预训练的蒙面语言模型对时间概念漂移的影响，以确保其能够适应不断更新的现实世界的事实更新，并提供了一个综合框架来构建不同时间粒度的事实数据集，并通过多个评估角度来评估模型是否过时。

Feb, 2023

基准透明度：测量数据对评估的影响

本文提出了一个自动化框架来测量数据分布对自然语言处理模型性能和评估的影响，并通过两组实验表明数据的分布对评估具有统计学上的重要性，并且可预测模型的泛化能力。

Mar, 2024

基于语言模型的嵌入方式测量文本的分布变化优势

利用大型语言模型（LLMs）生成的嵌入向量，我们提出了一种基于聚类的算法来测量文本数据的分布漂移，并通过实验证明其对于数据漂移的敏感性比其他嵌入方法更高。我们还提出了数据漂移敏感性作为衡量语言模型的重要评估指标，并从 18 个月的实际部署中总结了经验教训。

Dec, 2023

使用文档嵌入和降维技术检测文本数据中的协变量漂移

探讨使用不同文档嵌入、降维技术和漂移检测方法来识别文本数据中的协变漂移的有效性，结果表明某些组合的嵌入、降维技术和漂移检测方法在检测协变漂移方面表现优异。

Sep, 2023

多语言表征中的语义漂移

本文介绍了一种比较多语言计算表示相互关系的方法，可以重建语言学家所假定的类似的分类树，同时提出了一种检测语言家族之间语义漂移的度量，并使用基于单词和句子的多语言模型进行了实验，结果表明多语言分布式表示可以不需要任何词源学信息保存语言之间的关系。

Apr, 2019

生成文本流中的漂移方法

本文提供了四种文本漂移生成方法，以便生成带有标记漂移的数据集，并使用增量分类器测试它们恢复漂移的能力。结果表明，所有方法在漂移后性能都有所下降，增量支持向量机在准确性和宏 F1 得分方面运行速度最快，恢复了之前的性能水平。

Mar, 2024

自然语言处理性能评估指标的全球分析

本文介绍了自然语言处理领域中用于测量模型性能的度量标准，发现当前使用的大多数指标存在评估不足及解释性差等问题，导致透明性和可重复性的降低。

Apr, 2022

衡量自然语言处理模型对领域转移的鲁棒性

本文就自然领域转变设置中，fine-tuned model 和 few-shot learning model 的 domain robustness challenge 进行了研究，并提出 Source Drop (SD) 和 Target Drop (TD) 两种观点进行考虑。我们发现 DR challenge 在 fine-tuned model 和 few-shot learning model 中都存在，但在后者中不太显著。此外，本研究还发现增加 fine-tuned model 的大小可以提高模型的性能，特别是在分类方面。

May, 2023

文化转变还是语言漂移？比较两种计算语义变化的方法

本文介绍了两种不同的分布式度量方法如何用于检测两种不同类型的语义变化，第一种方法分析词汇分布语义的全局转变，对语言漂移等规则过程的变化敏感，第二种方法则更敏感于文化转变，两种方法的比较可以帮助研究人员确定变化的性质是更具文化性还是更具语言学性。

Jun, 2016

透明比较多语言自然语言处理数据集中的语言多样性的一种度量

提出了一种评估数据集语言多样性的方法，通过比较语言特征集合的 Jaccard 指数来分析，发现大部分流行的多语种数据集中缺乏多种语言类型，特别是 (poly) synthetic languages。

Mar, 2024