偏输入基准的误导性失败

ACLMay, 2019

Misleading Failures of Partial-input Baselines

Shi Feng, Eric Wallace, Jordan Boyd-Graber

TL;DR通过部分输入基线（如 SNLI 的假设模型或 VQA 的问题模型）确定数据集难度并消除注释伪装，但失败并不意味着数据集中没有伪装，因此我们设计了人工数据集，并在 SNLI 数据集中确定了这样的伪装，我们的工作为数据集的验证和创建提供了一个警示。

Abstract

Recent work establishes dataset difficulty and removes annotation artifacts via partial-input baselines (e.g., hypothesis-only models for

dataset difficulty partial-input baselines annotation artifacts artificial datasets snli dataset

发现论文，激发创造

部分输入基线表明自然语言推理模型可以忽略上下文

我们研究了最先进的 NLI 模型是否能够覆盖部分输入基线所做出的默认推断，并引入一个由紊乱的前提组成的评估集来检查 RoBERTa 模型对编辑内容的敏感性。我们的结果表明，尽管训练数据集存在技术性问题，但 NLI 模型仍然能够学习到依赖于上下文的条件和推理能力。

May, 2022

探究自然语言推理中假设偏差的人工模式：HypoNLI

该文探究自然语言推理训练模型中的偏见问题，提取假设中的短语作为人工模式，展示它们对于特定标签的强烈指示作用，并探索缓解假设 - 唯一偏见的多种方法，包括下采样和对抗训练等。

Mar, 2020

自然语言推理的多尺度数据增强方法用于降低伪影和优化预训练模型

研究机器学习模型在自然语言推断（NLI）中学习数据集人工特征的问题，并提供一种多层次的数据增强方法以减轻数据集的人工特征带来的影响。

Dec, 2022

不要以为前提成立：减轻自然语言推理中的人为误差

提出两种概率方法以构建更稳健的模型，让其更好地跨数据集进行传递，解决了自然语言推理数据集中存在的偏见问题。通过在含有偏差的数据集上进行训练，并在不含偏差数据集上进行测试，结果表明这些方法能够使模型更加稳健，相比基线模型在 12 个自然语言推理数据集中，有 9 个传输效果更好。

Jul, 2019

自然语言推理中仅基于假设的基准线

在十个不同的自然语言推理数据集上进行实验后，我们发现使用一种仅基于假设的模型，即使忽略上下文，也可以显著优于大多数 NLI 数据集的大多数基线，分析表明统计异常性可能允许模型在某些数据集中执行 NLI，超出不带上下文访问时本应实现的界限。

May, 2018

通过增强自然语言处理数据来应对自然语言推断任务中的注释人为错误

本研究旨在研究 Annotation Artifacts 在大型预先训练的 NLP 模型中的表现，分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差，以及评估该方法的有效性。

Feb, 2023

自然语言推理数据中的注释问题

该研究通过大规模数据集研究了自然语言推理，并揭示了某些语言现象与推理类别高度相关的结论，进一步表明自然语言推理模型的成功被高估了，这个任务仍是一个难题。

Mar, 2018

利用反事实情况测量和改善对部分输入的专注力

数据集中的伪相关性对于 NLP 模型在未见数据上的泛化性造成了影响。我们提出了一种新的评估方法，Counterfactual Attentiveness Test (CAT)，通过使用反事实推理来检测模型的注视变化。 CAT 的结果显示，对这种相关性的依赖主要受数据影响，并且通过引入反事实推理可以改善模型的注视能力。

Nov, 2023

反事实增强的 SNLI 训练数据不比未增强的数据具有更好的泛化性能

本研究发现，通过常规众包技术建立的反事实数据增强自然语言阅读理解数据集，不利于训练模型的泛化性和鲁棒性，并且在成本考虑上使用此种方法带来的收益很少。

Oct, 2020

通过集成对抗训练避免自然语言推理中仅有假设的偏差

采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见，这种方法比先前的去偏见努力表现更好，并且在推广到 12 个其他数据集时表现良好。

Apr, 2020