重塑自然语言推理中的中立性：没有强烈的一方或另一方情感

ACLJun, 2023

重塑自然语言推理中的中立性：没有强烈的一方或另一方情感

No Strong Feelings One Way or Another: Re-operationalizing Neutrality in Natural Language Inference

Animesh Nighojkar, Antonio Laverghetta Jr., John Licato

TL;DR本文指出自然语言推理领域在评估模型推理推理能力方面所使用的标准三分法存在着缺陷，尤其是与人类推理过程的案例感知能力的差异。作者还发现现有的自然语言推理标注数据集中的一种中性标签处于低效的状态，且存在解释不一致的情况，而至少一种重要的得分中性标签经常被忽略。我们比较了处理不同标注者之间的分歧的方法，并确定了最近的自然语言推理（NLI）数据集中设计了一个基于有问题的形式操作的注释者研究的缺陷。本文的发现强调了需要更加精确评估框架来评估 NLI，我们希望引发 NLP 社区的进一步讨论和行动。

Abstract

natural language inference (NLI) has been a cornerstone task in evaluating language models' inferential reasoning capabilities. However, the standard three-way classification scheme used in NLI has well-known shortcomings in evaluating models' ability to capture the nuances of natural

natural language inference inference reasoning capabilities operationalization neutral label annotator disagreement

发现论文，激发创造

保持中立：使用自然语言推断改进生成

本研究探讨了把自然语言推理（NLI）整合到文本生成管道中的方法，使用预训练的 NLI 模型评估生成的句子是否与提示和前文相符、矛盾或中立。最终结果表明，NLI 策略最大化中立类提高了生成文本的质量，而不是其他两种策略，无论参数值如何，该策略都比普通生成的文本质量更高。

Feb, 2023

自然语言推理模型的行为分析：揭示三个因素对鲁棒性的影响

研究自然语言推理 (NLI) 模型的鲁棒性，特别关注三个因素：不敏感、极性和未见过的词汇。结果发现，所有模型在处理未见过的反义词语上表现都欠佳，并且容易受到单词和标签之间的简单统计相关性的影响。

May, 2018

超越排行榜：揭示自然语言推理数据和模型弱点方法综述

本文是对近年来有关自然语言推理数据集的研究及其相关算法模型的综述，对模型和数据集中存在的问题进行分类整理，并提出一些可能的研究方向，为未来的研究提供指导建议。

May, 2020

神经自然语言推断模型部分嵌入了词汇蕴含和否定理论

本研究通过四种方法评估自然语言推理 (NLI) 模型是否可以学习词汇蕴涵和否定之间的组合交互作用，并提出了一个新的自然数据集 MoNLI，其中集中了词汇蕴涵和否定的相关内容，通过对 MoNLI 的 Fine-tuning 得到的模型相较于通用 NLI 数据集拥有更好的效果，同时对当前表现最佳的 BERT 模型进行探究表明其至少部分嵌入了词汇蕴涵和否定的算法级别理论。

Apr, 2020

自然语言推理不一致性原因的调查研究

本研究探讨自然语言推理中的不一致性注释是如何产生的，并识别了 10 种引起不一致的原因，其中某些不一致是由于句子意义的不确定性，而另一些则是由于注释者偏见和任务工件的存在。我们通过两种建模方法来检测存在潜在分歧的文本项目：一个比标准 NLI 标签多一个 “复杂” 标签的四分类方法，和一个多标签分类方法。我们发现多标签分类方法更具表现力，并对数据的可能解释提供了更好的召回率。

Sep, 2022

不确定的自然语言推断

本文介绍了不确定的自然语言推断（UNLI），它是自然语言推断（NLI）的一种改进，通过预测主观概率评估来预测结果，利用概率评估重新标记了部分 SNLI 数据集，并使用现有的分类标签化的 NLI 数据进行预训练，最终模型展示了超越分类标签化的 NLI 任务的更微妙推断的人类表现水平。

Sep, 2019

语义敏感度与不一致预测：衡量 NLI 模型的脆弱性

通过评估自然语言推理模型对含有微小语义保留表面形式噪声的对抗生成样本的效果，我们提供了证据表明，最新基于转换器的自然语言理解模型对于细微的语义保留有敏感性，这导致了推理过程中明显的不一致性。这种语义敏感性会导致在模型预测中的性能降低 12.92% 和 23.71%。

Jan, 2024

设计投入应用于多元世界观的 NLP 系统

自然语言推理（NLI）是评估人工智能语言理解的基础。我们认为，现有模型在模糊的例子上失败并且表现出差劲的泛化能力，这是由于忽视了意义的主观性，它与个体的世界观密切相关。我们提出了一种观点主义的方法：构建捕捉注解者人口统计、价值观和标签理由的数据集。这样的数据集将明确地建模多样化的世界观。我们对 SBIC 数据集的一个子集进行的初步实验表明，即使是有限的注解者元数据也能提高模型的性能。

May, 2024

文本蕴涵数据收集的新协议和负面结果

该研究提出了四种新的众包协议来收集 NLI 数据集，以改善训练样本的质量和多样性，然而实验结果表明这些新方法在迁移学习的任务中没有优势，但它们可以显著降低注释文本中的问题。

Apr, 2020

非自然语言推论

通过一个明确的指标，我们提出了多种度量方法，并研究了哪些特定的排列方式使得大型 Transformer NLU 模型在自然语言推理任务中对随机词序具有一定程度的规律性。我们对此现象进行了综合实证评估，发现无论是基于 Transformer 还是基于 pre-Transformer RNN / ConvNet 结构的编码器，以及跨多种语言（英语和中文）都存在此问题，并提供相关数据和代码。

Dec, 2020