通过统计检验和自动数据增强解析自然语言推理中的词汇偏见数据集以减少人为影响

Dec, 2023

通过统计检验和自动数据增强解析自然语言推理中的词汇偏见数据集以减少人为影响

Dissecting vocabulary biases datasets through statistical testing and automated data augmentation for artifact mitigation in Natural Language Inference

PDF

Dat Thanh Nguyen

TL;DR通过利用一种新颖的统计测试方法，我们发现词汇分布与文本蕴含类之间存在显著关联，强调词汇是一种明显的偏差源。为了减轻这些问题，我们提出了几种自动数据增强策略，从字符到词级别。通过对 ELECTRA 预训练语言模型进行微调，我们将有增强数据的模型与基准模型进行了比较。实验证明，所提出的方法可以有效提高模型准确性，并分别减少偏差约 0.66% 和 1.14%。

Abstract

In recent years, the availability of large-scale annotated datasets, such as the Stanford Natural Language Inference and the Multi-Genre Natural Language Inference, coupled with the advent of pre-trained language models, has significantly contributed to the development of the natural l

large-scale annotated datasets biases dataset artifacts vocabulary distribution data augmentation strategies

发现论文，激发创造

自然语言推理的多尺度数据增强方法用于降低伪影和优化预训练模型

研究机器学习模型在自然语言推断（NLI）中学习数据集人工特征的问题，并提供一种多层次的数据增强方法以减轻数据集的人工特征带来的影响。

Dec, 2022

通过增强自然语言处理数据来应对自然语言推断任务中的注释人为错误

本研究旨在研究 Annotation Artifacts 在大型预先训练的 NLP 模型中的表现，分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差，以及评估该方法的有效性。

Feb, 2023

探究文本蕴涵数据集中的偏见

本研究分析了 SNLI 和 MultiNLI 数据集中逻辑关系的数据偏差程度及其影响，并提出一种简单的方法来降低数据集中的数据偏差。我们发现仅对 SNLI 数据集中的假设进行分类，就能产生 64% 的准确率。

Jun, 2019

在 SemEval-2024 任务 2 中的 DKE 研究：结合数据增强、生成模型和生物医学知识提高推理鲁棒性

通过语义扰动和特定领域词汇替换生成合成示例，并添加数值和定量推理新任务，以改进生物医学临床试验中自然语言推理模型的鲁棒性，结合多任务学习和 DeBERTa 结构，相较于原始语言模型在 NLI4CT 2024 基准上取得了显著的性能改进。

Apr, 2024

通过集成对抗训练避免自然语言推理中仅有假设的偏差

采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见，这种方法比先前的去偏见努力表现更好，并且在推广到 12 个其他数据集时表现良好。

Apr, 2020

自然语言推理数据中的注释问题

该研究通过大规模数据集研究了自然语言推理，并揭示了某些语言现象与推理类别高度相关的结论，进一步表明自然语言推理模型的成功被高估了，这个任务仍是一个难题。

Mar, 2018

不要以为前提成立：减轻自然语言推理中的人为误差

提出两种概率方法以构建更稳健的模型，让其更好地跨数据集进行传递，解决了自然语言推理数据集中存在的偏见问题。通过在含有偏差的数据集上进行训练，并在不含偏差数据集上进行测试，结果表明这些方法能够使模型更加稳健，相比基线模型在 12 个自然语言推理数据集中，有 9 个传输效果更好。

Jul, 2019

生成数据以缓解自然语言推理数据集中的伪相关性

本篇研究提出了一种生成去偏差数据集的方法，通过过滤掉对任务并无帮助的数据以提高自然语言处理模型的泛化能力，并在实验中证实了该方法可以显著提高模型在不同任务分布下的性能表现。

Mar, 2022

使用混合容量模型集成学习模型和排除数据集置偏

本文提出了一种检测和忽略数据集特异性模式的方法，采用高低容量模型的集成训练，以自动捕捉相对浅层的相关性，并确保两个模型学习不重叠的方法，以利于更好地泛化模式。

Nov, 2020

重点关注 ' 受限行业 ', 通过自动化数据集增强和偏见量化来减少大型语言模型的偏见

通过指定的数据集增强机制，我们提出了一种新颖的自动去偏执方法，应用于在‘受限行业’中使用有限数据情况下的偏执制造者，并额外创建了 mb-index 和 db-index 两种指标，以量化由内在模型架构和数据集引起的偏见。

Mar, 2024