我们需要谈论随机分割

ACLMay, 2020

We Need to Talk About Random Splits

Anders Søgaard, Sebastian Ebert, Jasmijn Bastings, Katja Filippova

TL;DR研究指出，NLP 领域的实验应当使用多重的、独立的测试集进行评估，以获得更真实的性能评估；当不可能使用多个测试集时，使用多个有偏差的划分方式可得到更接近真实的性能评估。

Abstract

Gorman and Bedrick (2019) argued for using random splits rather than standard splits in NLP experiments. We argue that random splits, like standard splits, lead to overly optimistic performance estimates. We can

random splits biased sampling domain adaptation covariate shift assumption multiple test sets

发现论文，激发创造

使用似然拆分测试长尾泛化

为了可靠地处理自然语言，NLP 系统必须推广到罕见话语的长尾中。我们提出了一种方法，通过重新拆分现有数据集来创建具有挑战性的基准，要求推广到分布的尾部。在这个简单的方法中，我们创建了一个 “似然分布分割”，把通过一个预先训练的语言模型（LM）分配较低概率的例子放在测试集中，而更有可能的例子放在训练集中。这种方法可以量身定制，为广泛的任务构建有意义的训练 - 测试分割。同时，似然分配比随机分割更具挑战性。此外，似然分配比对抗性过滤创建了更公平的基准；当使用 LM 创建分配时，我们的分割不会对 LM 产生不利的惩罚。

Oct, 2022

学习分割以实现自动偏差检测

本文介绍了一种自动偏差检测算法，名为 Learning to Split，可用于超视带学习问题中的训练集和测试集分离和偏差发现，此算法能够自动检测到偏差，并结合强大的机器学习算法，实现自动去偏差。

Apr, 2022

基于潜在特征的数据划分方法改善泛化评估：仇恨言论检测案例研究

通过对现有数据集的新的训练 - 测试分割，我们挑战了仅基于目标和关键词训练、评估仅考虑训练和测试数据之间的分布变化的仇恨言论模型。我们提出了两种分割变体，并使用四个预训练模型应用于两个数据集，揭示了模型在潜在空间中的盲点上的灾难性失败。进一步分析表明，数据分割的表面级属性与性能下降之间没有明确的相关性，这突显了任务的难度不总是容易人类解释的。我们推荐在模型开发中加入基于潜在特征的分割，并通过 GenBench 基准发布了两种分割方案。

Nov, 2023

不走捷径：基于集成的方法避免已知数据集偏差

本文提出了一种训练出更具有领域迁移鲁棒性的模型的方法，通过训练一个简单模型以识别数据集偏差，再与鲁棒模型结合，使其更专注于数据集中更容易推广的模式。在五个具有领域迁移测试集的数据集上实验，结果显示在所有情况下都有显著改善，包括一个变化优先视觉问答数据集上的 12 点增益和一个对抗问答测试集上的 9 点增益。

Sep, 2019

领域泛化的因果平衡

采用平衡的小批量采样策略来消除数据中的错误相关性，提高机器学习模型在不同领域的泛化能力并以此训练贝叶斯最优分类器，通过实验证明该方法优于 20 种基准方法。

Jun, 2022

时代分割

研究中提出了两种新的决策树分裂准则，可以将环境或逐时信息纳入基于树的模型中，以找到在数据的所有不联通时期中都是最优的分裂点，而不是整个数据集的最优设置。

Sep, 2023

探究面向跨语言低资源 ASR 评估的数据分割策略

本研究探讨了针对训练资源匮乏的五种语言十种不同数据划分方法的模型性能，揭示不同说话者数据选取对模型性能的影响，表明在数据稀缺情况下采用基于随机划分的数据分割可以产生更可靠和可推广的结果。

Aug, 2022

生成数据以缓解自然语言推理数据集中的伪相关性

本篇研究提出了一种生成去偏差数据集的方法，通过过滤掉对任务并无帮助的数据以提高自然语言处理模型的泛化能力，并在实验中证实了该方法可以显著提高模型在不同任务分布下的性能表现。

Mar, 2022

数据集平衡的局限性：对抗虚假相关的失败战役

本观点文章指出，解决数据集平衡问题的常见方法已经不足以避免深度学习模型对小规模数据和特定标签的依赖和过拟合问题。我们提出了多种替代方法，包括增强数据集上下文语境，使用少量样本训练模型，通过与用户交互的方式进行模型推理等。

Apr, 2022

重组重采样划分能够改善超参数优化的普适性

超参数优化中，通过重新划分训练和验证数据集可以提高模型的泛化性能并降低计算成本。

May, 2024