为了可靠地处理自然语言,NLP 系统必须推广到罕见话语的长尾中。我们提出了一种方法,通过重新拆分现有数据集来创建具有挑战性的基准,要求推广到分布的尾部。在这个简单的方法中,我们创建了一个 “似然分布分割”,把通过一个预先训练的语言模型(LM)分配较低概率的例子放在测试集中,而更有可能的例子放在训练集中。这种方法可以量身定制,为广泛的任务构建有意义的训练 - 测试分割。同时,似然分配比随机分割更具挑战性。此外,似然分配比对抗性过滤创建了更公平的基准;当使用 LM 创建分配时,我们的分割不会对 LM 产生不利的惩罚。
Oct, 2022
本文介绍了一种自动偏差检测算法,名为 Learning to Split,可用于超视带学习问题中的训练集和测试集分离和偏差发现,此算法能够自动检测到偏差,并结合强大的机器学习算法,实现自动去偏差。
Apr, 2022
通过对现有数据集的新的训练 - 测试分割,我们挑战了仅基于目标和关键词训练、评估仅考虑训练和测试数据之间的分布变化的仇恨言论模型。我们提出了两种分割变体,并使用四个预训练模型应用于两个数据集,揭示了模型在潜在空间中的盲点上的灾难性失败。进一步分析表明,数据分割的表面级属性与性能下降之间没有明确的相关性,这突显了任务的难度不总是容易人类解释的。我们推荐在模型开发中加入基于潜在特征的分割,并通过 GenBench 基准发布了两种分割方案。
Nov, 2023
本文提出了一种训练出更具有领域迁移鲁棒性的模型的方法,通过训练一个简单模型以识别数据集偏差,再与鲁棒模型结合,使其更专注于数据集中更容易推广的模式。在五个具有领域迁移测试集的数据集上实验,结果显示在所有情况下都有显著改善,包括一个变化优先视觉问答数据集上的 12 点增益和一个对抗问答测试集上的 9 点增益。
Sep, 2019
采用平衡的小批量采样策略来消除数据中的错误相关性,提高机器学习模型在不同领域的泛化能力并以此训练贝叶斯最优分类器,通过实验证明该方法优于 20 种基准方法。
Jun, 2022
研究中提出了两种新的决策树分裂准则,可以将环境或逐时信息纳入基于树的模型中,以找到在数据的所有不联通时期中都是最优的分裂点,而不是整个数据集的最优设置。
Sep, 2023
本研究探讨了针对训练资源匮乏的五种语言十种不同数据划分方法的模型性能,揭示不同说话者数据选取对模型性能的影响,表明在数据稀缺情况下采用基于随机划分的数据分割可以产生更可靠和可推广的结果。
Aug, 2022
本篇研究提出了一种生成去偏差数据集的方法,通过过滤掉对任务并无帮助的数据以提高自然语言处理模型的泛化能力,并在实验中证实了该方法可以显著提高模型在不同任务分布下的性能表现。
Mar, 2022
本观点文章指出,解决数据集平衡问题的常见方法已经不足以避免深度学习模型对小规模数据和特定标签的依赖和过拟合问题。我们提出了多种替代方法,包括增强数据集上下文语境,使用少量样本训练模型,通过与用户交互的方式进行模型推理等。
超参数优化中,通过重新划分训练和验证数据集可以提高模型的泛化性能并降低计算成本。
May, 2024