探究文本蕴涵数据集中的偏见
本文提出了一种新的方法来研究用于识别文本蕴含任务的大型语料库的质量,通过基于统计假设检验的方法,测试了斯坦福自然语言推理(SNLI)语料库的可预测性,结果表明该库存在隐藏的偏差,并呈现了此偏差对于 RTE 的 NN 模型性能的影响。
Apr, 2018
本文中,我们描述了几种针对不同社区的刻板印象,这些社区存在于受欢迎的句子表示模型(包括预训练的下个句子预测和对比句子表示模型)中。通过比较基于文本相似性的强预训练模型与学习语言逻辑的文本蕴涵模型,我们得出结论:与显式去偏见流程相比,使用文本蕴涵显式逻辑学习可以显著减少偏见并提高社区的识别。
Mar, 2023
本文提出将 SNLI 风格自然语言推断的研究推向多语言评估,为阿拉伯语,法语,西班牙语和俄语提供测试数据,并使用跨语言词嵌入和机器翻译构建基线系统,最终系统的平均准确率超过了 75%,并着重实现了多语言推断的进一步研究。
Apr, 2017
通过利用一种新颖的统计测试方法,我们发现词汇分布与文本蕴含类之间存在显著关联,强调词汇是一种明显的偏差源。为了减轻这些问题,我们提出了几种自动数据增强策略,从字符到词级别。通过对 ELECTRA 预训练语言模型进行微调,我们将有增强数据的模型与基准模型进行了比较。实验证明,所提出的方法可以有效提高模型准确性,并分别减少偏差约 0.66% 和 1.14%。
Dec, 2023
采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见,这种方法比先前的去偏见努力表现更好,并且在推广到 12 个其他数据集时表现良好。
Apr, 2020
通过扩展自然语言推理数据集并引入人工提供的自然语言解释,我们实现了能够学习人类提供解释的机器学习模型,并将其用于提高模型性能和确定其可靠性的研究。
Dec, 2018
分析了两个自然语言推理数据集的语言特征,发现机器学习模型难以理解介词和动词语义重要性,不能理解反义词和同音词,不能理解不完整的句子和罕见单词短语,因此需要在训练过程中尽可能利用更多外部知识。
Oct, 2022
本文对自然语言句子匹配(NLSM)中可能出现的选择偏见进行了调查,并提出了一种训练和评估框架以减轻偏见带来的负面影响,实验结果表明该框架可以提高训练模型的泛化能力,并给出更加可信的评估结果。
May, 2019
本文提到了一个新的 SNLI-VE corpus 数据集,用于识别视觉 - 文本蕴含,介绍了一个数据收集的过程去修正该数据集的标签错误,进一步评估了更正在的数据集 SNLI-VE-2.0,并且提供了开源的人写的自然语言解释用于训练模型,最后测试它们的表现。
Apr, 2020
该论文定义了一项新的文本蕴含任务,要求对多个前提句子进行推断,提出了一个新的数据集来最小化平凡的词汇推理,强调对日常事件的知识,并为文本蕴含提出了一个更具挑战性的环境;同时评估了多种强力神经网络基线,并分析多个前提任务与标准文本含义的区别。
Oct, 2017