自然语言推理的多尺度数据增强方法用于降低伪影和优化预训练模型
本研究旨在研究 Annotation Artifacts 在大型预先训练的 NLP 模型中的表现,分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差,以及评估该方法的有效性。
Feb, 2023
通过利用一种新颖的统计测试方法,我们发现词汇分布与文本蕴含类之间存在显著关联,强调词汇是一种明显的偏差源。为了减轻这些问题,我们提出了几种自动数据增强策略,从字符到词级别。通过对 ELECTRA 预训练语言模型进行微调,我们将有增强数据的模型与基准模型进行了比较。实验证明,所提出的方法可以有效提高模型准确性,并分别减少偏差约 0.66% 和 1.14%。
Dec, 2023
提出两种概率方法以构建更稳健的模型,让其更好地跨数据集进行传递,解决了自然语言推理数据集中存在的偏见问题。通过在含有偏差的数据集上进行训练,并在不含偏差数据集上进行测试,结果表明这些方法能够使模型更加稳健,相比基线模型在 12 个自然语言推理数据集中,有 9 个传输效果更好。
Jul, 2019
通过分析 SNLI 数据集中的虚假关联并提出一种自适应上采样算法,在不需要人工编辑或注释的情况下纠正数据生成的错误,从而显著提高了模型在 SNLI 数据集上的性能。
Jan, 2024
本研究探讨了如何在训练过程中利用句法信息来提高预训练模型 BERT 在自然语言推理上的表现,经过尝试,通过主语 / 宾语倒装能将模型在控制的测试中的准确率从 0.28 提升至 0.73,而对 MNLI 测试集影响不大,表明数据增强能帮助 BERT 招募抽象的句法表示从而提升模型的表现。
Apr, 2020
采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见,这种方法比先前的去偏见努力表现更好,并且在推广到 12 个其他数据集时表现良好。
Apr, 2020
本文研究了使用数据增强和神经集成学习技术来减轻预训练神经语言模型在医学或低资源语言等特定领域中的数据稀缺问题。实验结果表明,这些简单有效的解决方案可以显著提高这些领域下神经语言模型的性能。
Feb, 2023
本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练,该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。
Feb, 2023
本篇研究提出了一种生成去偏差数据集的方法,通过过滤掉对任务并无帮助的数据以提高自然语言处理模型的泛化能力,并在实验中证实了该方法可以显著提高模型在不同任务分布下的性能表现。
Mar, 2022