通过增强自然语言处理数据来应对自然语言推断任务中的注释人为错误

Feb, 2023

通过增强自然语言处理数据来应对自然语言推断任务中的注释人为错误

Augmenting NLP data to counter Annotation Artifacts for NLI Tasks

Armaan Singh Bhullar

TL;DR本研究旨在研究 Annotation Artifacts 在大型预先训练的 NLP 模型中的表现，分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差，以及评估该方法的有效性。

Abstract

In this paper, we explore annotation artifacts - the phenomena wherein large pre-trained nlp models achieve high performance on benchmark datasets but do not actually "solve" the underlying task and instead rely

annotation artifacts nlp models natural language inference data augmentation bias

发现论文，激发创造

自然语言推理的多尺度数据增强方法用于降低伪影和优化预训练模型

研究机器学习模型在自然语言推断（NLI）中学习数据集人工特征的问题，并提供一种多层次的数据增强方法以减轻数据集的人工特征带来的影响。

Dec, 2022

通过统计检验和自动数据增强解析自然语言推理中的词汇偏见数据集以减少人为影响

通过利用一种新颖的统计测试方法，我们发现词汇分布与文本蕴含类之间存在显著关联，强调词汇是一种明显的偏差源。为了减轻这些问题，我们提出了几种自动数据增强策略，从字符到词级别。通过对 ELECTRA 预训练语言模型进行微调，我们将有增强数据的模型与基准模型进行了比较。实验证明，所提出的方法可以有效提高模型准确性，并分别减少偏差约 0.66% 和 1.14%。

Dec, 2023

自然语言推理数据中的注释问题

该研究通过大规模数据集研究了自然语言推理，并揭示了某些语言现象与推理类别高度相关的结论，进一步表明自然语言推理模型的成功被高估了，这个任务仍是一个难题。

Mar, 2018

通过集成对抗训练避免自然语言推理中仅有假设的偏差

采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见，这种方法比先前的去偏见努力表现更好，并且在推广到 12 个其他数据集时表现良好。

Apr, 2020

不要以为前提成立：减轻自然语言推理中的人为误差

提出两种概率方法以构建更稳健的模型，让其更好地跨数据集进行传递，解决了自然语言推理数据集中存在的偏见问题。通过在含有偏差的数据集上进行训练，并在不含偏差数据集上进行测试，结果表明这些方法能够使模型更加稳健，相比基线模型在 12 个自然语言推理数据集中，有 9 个传输效果更好。

Jul, 2019

反事实增强的 SNLI 训练数据不比未增强的数据具有更好的泛化性能

本研究发现，通过常规众包技术建立的反事实数据增强自然语言阅读理解数据集，不利于训练模型的泛化性和鲁棒性，并且在成本考虑上使用此种方法带来的收益很少。

Oct, 2020

句法数据增强提高推理启发健壮性

本研究探讨了如何在训练过程中利用句法信息来提高预训练模型 BERT 在自然语言推理上的表现，经过尝试，通过主语 / 宾语倒装能将模型在控制的测试中的准确率从 0.28 提升至 0.73，而对 MNLI 测试集影响不大，表明数据增强能帮助 BERT 招募抽象的句法表示从而提升模型的表现。

Apr, 2020

使用对比预训练和对抗过滤的强健任务导向对话生成

本研究探讨了数据人工制品对机器学习模型泛化能力所产生的影响，提出一种基于对比学习的框架，试图鼓励深度学习模型学习普适规律并忽略数据人工制品。研究表明该方法具有很好的实验效果。

May, 2022

神经 NLP 数据增强

本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展，着重介绍了基于神经网络和变换器的方法，讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。

Feb, 2023

缓解大型语言模型的数据稀缺问题

本文研究了使用数据增强和神经集成学习技术来减轻预训练神经语言模型在医学或低资源语言等特定领域中的数据稀缺问题。实验结果表明，这些简单有效的解决方案可以显著提高这些领域下神经语言模型的性能。

Feb, 2023