探究文本蕴涵数据集中的偏见

Jun, 2019

Investigating Biases in Textual Entailment Datasets

Shawn Tan, Yikang Shen, Chin-wei Huang, Aaron Courville

TL;DR本研究分析了 SNLI 和 MultiNLI 数据集中逻辑关系的数据偏差程度及其影响，并提出一种简单的方法来降低数据集中的数据偏差。我们发现仅对 SNLI 数据集中的假设进行分类，就能产生 64% 的准确率。

Abstract

The ability to understand logical relationships between sentences is an important task in language understanding. To aid in progress for this task, researchers have collected datasets for →

logical relationships language understanding machine learning data bias dataset bias reduction

发现论文，激发创造

训练数据中的隐藏偏差对文本蕴涵识别性能的影响

本文提出了一种新的方法来研究用于识别文本蕴含任务的大型语料库的质量，通过基于统计假设检验的方法，测试了斯坦福自然语言推理（SNLI）语料库的可预测性，结果表明该库存在隐藏的偏差，并呈现了此偏差对于 RTE 的 NN 模型性能的影响。

Apr, 2018

逻辑抗偏见：文字推断缓解刻板句子推理

本文中，我们描述了几种针对不同社区的刻板印象，这些社区存在于受欢迎的句子表示模型（包括预训练的下个句子预测和对比句子表示模型）中。通过比较基于文本相似性的强预训练模型与学习语言逻辑的文本蕴涵模型，我们得出结论：与显式去偏见流程相比，使用文本蕴涵显式逻辑学习可以显著减少偏见并提高社区的识别。

Mar, 2023

跨语言推理的基准线和测试数据

本文提出将 SNLI 风格自然语言推断的研究推向多语言评估，为阿拉伯语，法语，西班牙语和俄语提供测试数据，并使用跨语言词嵌入和机器翻译构建基线系统，最终系统的平均准确率超过了 75％，并着重实现了多语言推断的进一步研究。

Apr, 2017

通过统计检验和自动数据增强解析自然语言推理中的词汇偏见数据集以减少人为影响

通过利用一种新颖的统计测试方法，我们发现词汇分布与文本蕴含类之间存在显著关联，强调词汇是一种明显的偏差源。为了减轻这些问题，我们提出了几种自动数据增强策略，从字符到词级别。通过对 ELECTRA 预训练语言模型进行微调，我们将有增强数据的模型与基准模型进行了比较。实验证明，所提出的方法可以有效提高模型准确性，并分别减少偏差约 0.66% 和 1.14%。

Dec, 2023

通过集成对抗训练避免自然语言推理中仅有假设的偏差

采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见，这种方法比先前的去偏见努力表现更好，并且在推广到 12 个其他数据集时表现良好。

Apr, 2020

e-SNLI: 自然语言推理和自然语言解释

通过扩展自然语言推理数据集并引入人工提供的自然语言解释，我们实现了能够学习人类提供解释的机器学习模型，并将其用于提高模型性能和确定其可靠性的研究。

Dec, 2018

机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

分析了两个自然语言推理数据集的语言特征，发现机器学习模型难以理解介词和动词语义重要性，不能理解反义词和同音词，不能理解不完整的句子和罕见单词短语，因此需要在训练过程中尽可能利用更多外部知识。

Oct, 2022

自然语言句子匹配数据集的选择偏差探索和去偏方法

本文对自然语言句子匹配（NLSM）中可能出现的选择偏见进行了调查，并提出了一种训练和评估框架以减轻偏见带来的负面影响，实验结果表明该框架可以提高训练模型的泛化能力，并给出更加可信的评估结果。

May, 2019

e-SNLI-VE: 图文蕴含纠错与自然语言解释

本文提到了一个新的 SNLI-VE corpus 数据集，用于识别视觉 - 文本蕴含，介绍了一个数据收集的过程去修正该数据集的标签错误，进一步评估了更正在的数据集 SNLI-VE-2.0，并且提供了开源的人写的自然语言解释用于训练模型，最后测试它们的表现。

Apr, 2020

多前提自然语言推理

该论文定义了一项新的文本蕴含任务，要求对多个前提句子进行推断，提出了一个新的数据集来最小化平凡的词汇推理，强调对日常事件的知识，并为文本蕴含提出了一个更具挑战性的环境；同时评估了多种强力神经网络基线，并分析多个前提任务与标准文本含义的区别。

Oct, 2017