自然语言推理不一致性原因的调查研究

ACLSep, 2022

自然语言推理不一致性原因的调查研究

Investigating Reasons for Disagreement in Natural Language Inference

Nan-Jiang Jiang, Marie-Catherine de Marneffe

TL;DR本研究探讨自然语言推理中的不一致性注释是如何产生的，并识别了 10 种引起不一致的原因，其中某些不一致是由于句子意义的不确定性，而另一些则是由于注释者偏见和任务工件的存在。我们通过两种建模方法来检测存在潜在分歧的文本项目：一个比标准 NLI 标签多一个 “复杂” 标签的四分类方法，和一个多标签分类方法。我们发现多标签分类方法更具表现力，并对数据的可能解释提供了更好的召回率。

Abstract

We investigate how disagreement in natural language inference (NLI) annotation arises. We developed a taxonomy of disagreement sources with 10 categories spanning 3 high-level classes. We found that some disagree

natural language inference disagreement sources annotator biases modeling approaches multilabel classification

发现论文，激发创造

自然语言推理数据中的注释问题

该研究通过大规模数据集研究了自然语言推理，并揭示了某些语言现象与推理类别高度相关的结论，进一步表明自然语言推理模型的成功被高估了，这个任务仍是一个难题。

Mar, 2018

自然有效的自然语言推理标签变异解释

人类标签差异存在于许多自然语言处理任务中，包括自然语言推理。在研究中，我们建立了 LiveNLI 数据集，通过 1415 个生态有效解释（标注者解释他们选择的 NLI 标签）来获取直接证据，研究了标签差异的产生。结果显示，解释对于理解标签的不同解释至关重要，并且标注者有时会基于不同的原因选择相同的标签，这表明解释在一般中导航标签解释方面起着关键作用。我们进行了少样本大语言模型生成解释的尝试，但结果不一致：它有时会产生有效和有信息量的解释，但也会生成不支持标签的不合理的解释，提出了改进的方向。

Oct, 2023

通过解释理解和预测自然语言推理中的人类标签变化

该论文创建了一个包含注解高亮和自由文本解释的生态有效的自然语言推断数据集 --LiveNLI。使用该数据集对思维链进行提示，发现目前 GPT-3 在预测标签分布方面仍有改进的空间

Apr, 2023

重塑自然语言推理中的中立性：没有强烈的一方或另一方情感

本文指出自然语言推理领域在评估模型推理推理能力方面所使用的标准三分法存在着缺陷，尤其是与人类推理过程的案例感知能力的差异。作者还发现现有的自然语言推理标注数据集中的一种中性标签处于低效的状态，且存在解释不一致的情况，而至少一种重要的得分中性标签经常被忽略。我们比较了处理不同标注者之间的分歧的方法，并确定了最近的自然语言推理（NLI）数据集中设计了一个基于有问题的形式操作的注释者研究的缺陷。本文的发现强调了需要更加精确评估框架来评估 NLI，我们希望引发 NLP 社区的进一步讨论和行动。

Jun, 2023

机器学习对矛盾检测模型的语言学研究：实证分析和未来展望

分析了两个自然语言推理数据集的语言特征，发现机器学习模型难以理解介词和动词语义重要性，不能理解反义词和同音词，不能理解不完整的句子和罕见单词短语，因此需要在训练过程中尽可能利用更多外部知识。

Oct, 2022

不确定的自然语言推断

本文介绍了不确定的自然语言推断（UNLI），它是自然语言推断（NLI）的一种改进，通过预测主观概率评估来预测结果，利用概率评估重新标记了部分 SNLI 数据集，并使用现有的分类标签化的 NLI 数据进行预训练，最终模型展示了超越分类标签化的 NLI 任务的更微妙推断的人类表现水平。

Sep, 2019

众人的声音都很重要：利用人口统计信息量化注释不一致性

通过提取注释者在五个主观数据集中的选票历史中的不同意标签，并微调语言模型来预测注释者的不同意。结果表明，了解注释者的人口统计信息可以帮助预测不同意见。通过模拟不同的注释者人工人口统计信息，来区分文本内容固有的争议和注释者不同观点之间的分歧，旨在通过一种新颖的分歧预测机制，改进注释流程，实现更高效和包容性的 NLP 系统。

Jan, 2023

对抗性自然语言推理数据集分析

本文提出了一种精细注释 Adversarial NLI 的方法，通过分析其数据集中不同方面的推理并使用手工编码，回答了一些问题，如哪种推理类型最常见，哪种模型在每种推理类型上的表现最好等，并希望这些注释可以使得对于 ANLI 训练的模型进行更细粒度的评估，更深入的了解模型失败和成功的原因，并且有助于在未来培训出更好的模型。

Oct, 2020

捕获标签分布：自然语言推理案例研究

研究了自然语言推理任务中固有人类分歧 (注释标签分布) 的估计。通过后处理平滑预测的标签分布以匹配期望的标签熵取得了很好的效果。同时，通过引入有多个参考的少量样例进行训练，相较于传统做法每个训练样本只采集一个参考，我们发现这种多参考的方法可以在固定注释预算下实现更好的精度。最后，提供了对比这两种方法的丰富分析，用于改进标签分布估计。

Feb, 2021

大型语言模型是否能像人类一样推断和产生分歧？

本文研究大型语言模型在处理自然语言推理任务上的表现，并通过 Monte Carlo Reconstruction 和 Log Probability Reconstruction 两种方法评估其与人类理解的一致性，结果表明大型语言模型在 NLI 任务和人的理解差异分布方面表现不佳。

May, 2023