研究机器学习模型在自然语言推断(NLI)中学习数据集人工特征的问题,并提供一种多层次的数据增强方法以减轻数据集的人工特征带来的影响。
Dec, 2022
通过利用一种新颖的统计测试方法,我们发现词汇分布与文本蕴含类之间存在显著关联,强调词汇是一种明显的偏差源。为了减轻这些问题,我们提出了几种自动数据增强策略,从字符到词级别。通过对 ELECTRA 预训练语言模型进行微调,我们将有增强数据的模型与基准模型进行了比较。实验证明,所提出的方法可以有效提高模型准确性,并分别减少偏差约 0.66% 和 1.14%。
Dec, 2023
该研究通过大规模数据集研究了自然语言推理,并揭示了某些语言现象与推理类别高度相关的结论,进一步表明自然语言推理模型的成功被高估了,这个任务仍是一个难题。
Mar, 2018
采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见,这种方法比先前的去偏见努力表现更好,并且在推广到 12 个其他数据集时表现良好。
Apr, 2020
提出两种概率方法以构建更稳健的模型,让其更好地跨数据集进行传递,解决了自然语言推理数据集中存在的偏见问题。通过在含有偏差的数据集上进行训练,并在不含偏差数据集上进行测试,结果表明这些方法能够使模型更加稳健,相比基线模型在 12 个自然语言推理数据集中,有 9 个传输效果更好。
Jul, 2019
本研究发现,通过常规众包技术建立的反事实数据增强自然语言阅读理解数据集,不利于训练模型的泛化性和鲁棒性,并且在成本考虑上使用此种方法带来的收益很少。
Oct, 2020
本研究探讨了如何在训练过程中利用句法信息来提高预训练模型 BERT 在自然语言推理上的表现,经过尝试,通过主语 / 宾语倒装能将模型在控制的测试中的准确率从 0.28 提升至 0.73,而对 MNLI 测试集影响不大,表明数据增强能帮助 BERT 招募抽象的句法表示从而提升模型的表现。
本研究探讨了数据人工制品对机器学习模型泛化能力所产生的影响,提出一种基于对比学习的框架,试图鼓励深度学习模型学习普适规律并忽略数据人工制品。研究表明该方法具有很好的实验效果。
May, 2022
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
Feb, 2023
本文研究了使用数据增强和神经集成学习技术来减轻预训练神经语言模型在医学或低资源语言等特定领域中的数据稀缺问题。实验结果表明,这些简单有效的解决方案可以显著提高这些领域下神经语言模型的性能。