训练数据中的隐藏偏差对文本蕴涵识别性能的影响

Apr, 2018

训练数据中的隐藏偏差对文本蕴涵识别性能的影响

Performance Impact Caused by Hidden Bias of Training Data for Recognizing Textual Entailment

Masatoshi Tsuchiya

TL;DR本文提出了一种新的方法来研究用于识别文本蕴含任务的大型语料库的质量，通过基于统计假设检验的方法，测试了斯坦福自然语言推理（SNLI）语料库的可预测性，结果表明该库存在隐藏的偏差，并呈现了此偏差对于 RTE 的 NN 模型性能的影响。

Abstract

The quality of training data is one of the crucial problems when a learning-centered approach is employed. This paper proposes a new method to investigate the quality of a large corpus designed for the recognizing textual entailment (RTE) task. The proposed method, which is inspired by a statistical hypothesis test, consists of two phases: the first phase is

training data quality textual entailment hidden bias naive bayes model nn models

发现论文，激发创造

探究文本蕴涵数据集中的偏见

本研究分析了 SNLI 和 MultiNLI 数据集中逻辑关系的数据偏差程度及其影响，并提出一种简单的方法来降低数据集中的数据偏差。我们发现仅对 SNLI 数据集中的假设进行分类，就能产生 64% 的准确率。

Jun, 2019

一项文本蕴含识别的自然语言处理评估调查

本论文介绍了一种用于比较不同 NLP 系统语义理解能力的统一性评估框架 ——Recognizing Textual Entailment (RTE)，并提供了评估 NLP 系统推理能力的不同方法的概述，重点介绍了 RTE 数据集的特点及其最新研究进展，提出了利用注重特定语言现象的新引入的 RTE 数据集来评估 NLP 系统的建议。

Oct, 2020

自然语言句子之间蕴含和矛盾关系的识别：一种神经符号方法

提出了一个基于将文本转换为抽象意义表示（AMR）图的新型流水线，通过预训练的 AMR 解析器将 AMR 图转换为命题逻辑，并使用 SAT 求解器进行自动推理，引入了松弛方法以允许替换或遗忘某些命题。实验结果表明该流水线在四个 Recognizing Textual Entailment 数据集上表现良好。

May, 2024

通过经验文本表示的语义特征实现文本蕴涵识别

本文提出了一种新的基于阈值的语义文本表示方法，并结合机器学习算法应用语义和词汇特征对文本 - 假设对进行分类，该技术有效地丰富了文本的语义信息，在文字蕴涵分类任务中在意义理解方面的表现明显优于已知方法

Oct, 2022

学习无标注数据推理：一种半监督学习方法用于强健的自然语言推理

本文提出了一种结合无标注数据的 NLI 半监督学习方法，其中使用了条件语言模型 BART 生成假设句子，以减少对人类注释的依赖，实验结果显示该方法能够成功地利用无标注数据并在低资源环境下显著提高四个 NLI 评测集的性能。

Nov, 2022

跨语言推理的基准线和测试数据

本文提出将 SNLI 风格自然语言推断的研究推向多语言评估，为阿拉伯语，法语，西班牙语和俄语提供测试数据，并使用跨语言词嵌入和机器翻译构建基线系统，最终系统的平均准确率超过了 75％，并着重实现了多语言推断的进一步研究。

Apr, 2017

基于 Transformer 的 NLI 模型中的自然逻辑特征因果效应估计

利用因果效应估计策略衡量上下文干预和插入词对于推理标签的影响，通过广泛的干预研究验证模型对不相关变化的稳健性和对有影响变化的敏感性。

Apr, 2024

逻辑抗偏见：文字推断缓解刻板句子推理

本文中，我们描述了几种针对不同社区的刻板印象，这些社区存在于受欢迎的句子表示模型（包括预训练的下个句子预测和对比句子表示模型）中。通过比较基于文本相似性的强预训练模型与学习语言逻辑的文本蕴涵模型，我们得出结论：与显式去偏见流程相比，使用文本蕴涵显式逻辑学习可以显著减少偏见并提高社区的识别。

Mar, 2023

使用自然语言推理评估数据生成文本的语义准确性

本论文提出了一种使用预训练的自然语言推理神经模型来衡量数据到文本生成语义准确性的新度量方法，并利用该方法来检验两个方向之间的文本蕴含，从而揭示输出中的遗漏或虚构。实验证明，该指标能够在鉴定系统输出的错误方面达到高的精度。

Nov, 2020

通过集成对抗训练避免自然语言推理中仅有假设的偏差

采用对抗性训练和敌对对抗方法的集成来降低自然语言推理中的偏见，这种方法比先前的去偏见努力表现更好，并且在推广到 12 个其他数据集时表现良好。

Apr, 2020