自然语言推理数据中的注释问题

ACLMar, 2018

Annotation Artifacts in Natural Language Inference Data

Suchin Gururangan, Swabha Swayamdipta, Omer Levy, Roy Schwartz, Samuel R. Bowman...

TL;DR该研究通过大规模数据集研究了自然语言推理，并揭示了某些语言现象与推理类别高度相关的结论，进一步表明自然语言推理模型的成功被高估了，这个任务仍是一个难题。

Abstract

Large-scale datasets for natural language inference are created by presenting crowd workers with a sentence (premise), and asking them to generate three new sentences (hypotheses) that it entails, contradicts, or is logically neutral with respect to. We show that, in a significant port

natural language inference large-scale dataset linguistic phenomena text categorization inference classes

发现论文，激发创造

不要以为前提成立：减轻自然语言推理中的人为误差

提出两种概率方法以构建更稳健的模型，让其更好地跨数据集进行传递，解决了自然语言推理数据集中存在的偏见问题。通过在含有偏差的数据集上进行训练，并在不含偏差数据集上进行测试，结果表明这些方法能够使模型更加稳健，相比基线模型在 12 个自然语言推理数据集中，有 9 个传输效果更好。

Jul, 2019

通过增强自然语言处理数据来应对自然语言推断任务中的注释人为错误

本研究旨在研究 Annotation Artifacts 在大型预先训练的 NLP 模型中的表现，分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差，以及评估该方法的有效性。

Feb, 2023

通过集成对抗训练避免自然语言推理中仅有假设的偏差

采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见，这种方法比先前的去偏见努力表现更好，并且在推广到 12 个其他数据集时表现良好。

Apr, 2020

自然语言推理的多尺度数据增强方法用于降低伪影和优化预训练模型

研究机器学习模型在自然语言推断（NLI）中学习数据集人工特征的问题，并提供一种多层次的数据增强方法以减轻数据集的人工特征带来的影响。

Dec, 2022

通过统计检验和自动数据增强解析自然语言推理中的词汇偏见数据集以减少人为影响

通过利用一种新颖的统计测试方法，我们发现词汇分布与文本蕴含类之间存在显著关联，强调词汇是一种明显的偏差源。为了减轻这些问题，我们提出了几种自动数据增强策略，从字符到词级别。通过对 ELECTRA 预训练语言模型进行微调，我们将有增强数据的模型与基准模型进行了比较。实验证明，所提出的方法可以有效提高模型准确性，并分别减少偏差约 0.66% 和 1.14%。

Dec, 2023

探究预训练和知识增强模型在自然语言推理中的应用的多个实验

该研究探索了无监督预训练和外部知识对自然语言推断任务的影响，以了解其如何帮助自然语言理解和解决 NLP 问题。

Apr, 2019

探究文本蕴涵数据集中的偏见

本研究分析了 SNLI 和 MultiNLI 数据集中逻辑关系的数据偏差程度及其影响，并提出一种简单的方法来降低数据集中的数据偏差。我们发现仅对 SNLI 数据集中的假设进行分类，就能产生 64% 的准确率。

Jun, 2019

不确定的自然语言推断

本文介绍了不确定的自然语言推断（UNLI），它是自然语言推断（NLI）的一种改进，通过预测主观概率评估来预测结果，利用概率评估重新标记了部分 SNLI 数据集，并使用现有的分类标签化的 NLI 数据进行预训练，最终模型展示了超越分类标签化的 NLI 任务的更微妙推断的人类表现水平。

Sep, 2019

众包工作者撰写蕴含示例的具体实施：从众多不良方案中挑选最优选项

本研究探讨了三种自然语言推理数据集的构建方法 ——crowdworker writing，自动构建以及折衷方案，并在此基础上收集了新的英文 NLI 数据集。实验结果表明，crowdworker writing 仍是 NLI 数据集构建的最佳选择。

Oct, 2020

用于学习自然语言推理的大规模注释语料库

通过引入 Stanford 自然语言推理语料库，我们成功解决了机器学习研究在自然语言推理方面的巨大缺乏，该语料库是由人类按照基于图像字幕的新颖本体任务撰写的标记句子对，包含 570k 个句子对，是同类资源的两个量级以上，在规模方面取得了重大进展，这使得词汇分类器优于一些复杂的现有蕴含模型，并且让一种基于神经网络的模型在自然语言推理基准测试中首次表现亮眼。

Aug, 2015