Dec, 2023

通过统计检验和自动数据增强解析自然语言推理中的词汇偏见数据集以减少人为影响

TL;DR通过利用一种新颖的统计测试方法,我们发现词汇分布与文本蕴含类之间存在显著关联,强调词汇是一种明显的偏差源。为了减轻这些问题,我们提出了几种自动数据增强策略,从字符到词级别。通过对 ELECTRA 预训练语言模型进行微调,我们将有增强数据的模型与基准模型进行了比较。实验证明,所提出的方法可以有效提高模型准确性,并分别减少偏差约 0.66% 和 1.14%。