自然语言推理的多尺度数据增强方法用于降低伪影和优化预训练模型

Dec, 2022

自然语言推理的多尺度数据增强方法用于降低伪影和优化预训练模型

Multi-Scales Data Augmentation Approach In Natural Language Inference For Artifacts Mitigation And Pre-Trained Model Optimization

PDF

Zhenyuan Lu

TL;DR研究机器学习模型在自然语言推断（NLI）中学习数据集人工特征的问题，并提供一种多层次的数据增强方法以减轻数据集的人工特征带来的影响。

Abstract

machine learning models can reach high performance on benchmark natural language processing (NLP) datasets but fail in more challenging settings. We study this issue when a pre-trained model learns dataset artifacts

machine learning natural language processing dataset artifacts stanford natural language inference data augmentation

发现论文，激发创造

通过增强自然语言处理数据来应对自然语言推断任务中的注释人为错误

本研究旨在研究 Annotation Artifacts 在大型预先训练的 NLP 模型中的表现，分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差，以及评估该方法的有效性。

Feb, 2023

通过统计检验和自动数据增强解析自然语言推理中的词汇偏见数据集以减少人为影响

通过利用一种新颖的统计测试方法，我们发现词汇分布与文本蕴含类之间存在显著关联，强调词汇是一种明显的偏差源。为了减轻这些问题，我们提出了几种自动数据增强策略，从字符到词级别。通过对 ELECTRA 预训练语言模型进行微调，我们将有增强数据的模型与基准模型进行了比较。实验证明，所提出的方法可以有效提高模型准确性，并分别减少偏差约 0.66% 和 1.14%。

Dec, 2023

不要以为前提成立：减轻自然语言推理中的人为误差

提出两种概率方法以构建更稳健的模型，让其更好地跨数据集进行传递，解决了自然语言推理数据集中存在的偏见问题。通过在含有偏差的数据集上进行训练，并在不含偏差数据集上进行测试，结果表明这些方法能够使模型更加稳健，相比基线模型在 12 个自然语言推理数据集中，有 9 个传输效果更好。

Jul, 2019

减少数据伪影的自适应上采样算法

通过分析 SNLI 数据集中的虚假关联并提出一种自适应上采样算法，在不需要人工编辑或注释的情况下纠正数据生成的错误，从而显著提高了模型在 SNLI 数据集上的性能。

Jan, 2024

自然语言推理数据中的注释问题

该研究通过大规模数据集研究了自然语言推理，并揭示了某些语言现象与推理类别高度相关的结论，进一步表明自然语言推理模型的成功被高估了，这个任务仍是一个难题。

Mar, 2018

句法数据增强提高推理启发健壮性

本研究探讨了如何在训练过程中利用句法信息来提高预训练模型 BERT 在自然语言推理上的表现，经过尝试，通过主语 / 宾语倒装能将模型在控制的测试中的准确率从 0.28 提升至 0.73，而对 MNLI 测试集影响不大，表明数据增强能帮助 BERT 招募抽象的句法表示从而提升模型的表现。

Apr, 2020

通过集成对抗训练避免自然语言推理中仅有假设的偏差

采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见，这种方法比先前的去偏见努力表现更好，并且在推广到 12 个其他数据集时表现良好。

Apr, 2020

缓解大型语言模型的数据稀缺问题

本文研究了使用数据增强和神经集成学习技术来减轻预训练神经语言模型在医学或低资源语言等特定领域中的数据稀缺问题。实验结果表明，这些简单有效的解决方案可以显著提高这些领域下神经语言模型的性能。

Feb, 2023

探索代码生成任务的数据增强技术

本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练，该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。

Feb, 2023

生成数据以缓解自然语言推理数据集中的伪相关性

本篇研究提出了一种生成去偏差数据集的方法，通过过滤掉对任务并无帮助的数据以提高自然语言处理模型的泛化能力，并在实验中证实了该方法可以显著提高模型在不同任务分布下的性能表现。

Mar, 2022