非自然语言推论

ACLDec, 2020

UnNatural Language Inference

Koustuv Sinha, Prasanna Parthasarathi, Joelle Pineau, Adina Williams

TL;DR通过一个明确的指标，我们提出了多种度量方法，并研究了哪些特定的排列方式使得大型 Transformer NLU 模型在自然语言推理任务中对随机词序具有一定程度的规律性。我们对此现象进行了综合实证评估，发现无论是基于 Transformer 还是基于 pre-Transformer RNN / ConvNet 结构的编码器，以及跨多种语言（英语和中文）都存在此问题，并提供相关数据和代码。

Abstract

Recent investigations into the inner-workings of state-of-the-art large-scale pre-trained Transformer-based Natural Language Understanding (NLU) models indicate that they appear to know humanlike syntax, at least to some extent. We provide novel evidence that complicates this claim: we find that state-of-the-art →

transformer-based nlu models natural language inference word-order permutations mnli dataset permutation eliciting gold label

发现论文，激发创造

不确定的自然语言推断

本文介绍了不确定的自然语言推断（UNLI），它是自然语言推断（NLI）的一种改进，通过预测主观概率评估来预测结果，利用概率评估重新标记了部分 SNLI 数据集，并使用现有的分类标签化的 NLI 数据进行预训练，最终模型展示了超越分类标签化的 NLI 任务的更微妙推断的人类表现水平。

Sep, 2019

语义敏感度与不一致预测：衡量 NLI 模型的脆弱性

通过评估自然语言推理模型对含有微小语义保留表面形式噪声的对抗生成样本的效果，我们提供了证据表明，最新基于转换器的自然语言理解模型对于细微的语义保留有敏感性，这导致了推理过程中明显的不一致性。这种语义敏感性会导致在模型预测中的性能降低 12.92% 和 23.71%。

Jan, 2024

探究预训练和知识增强模型在自然语言推理中的应用的多个实验

该研究探索了无监督预训练和外部知识对自然语言推断任务的影响，以了解其如何帮助自然语言理解和解决 NLP 问题。

Apr, 2019

揭示大型语言模型在 Transformer 模型之上对孟加拉语自然语言推理的优势：一项全面研究

通过综合评估，本研究在低资源语言（如孟加拉语）的自然语言推理任务中评估了知名大型语言模型和最先进模型的性能，发现虽然大型语言模型在少样本情况下可以达到与微调后最先进模型相媲美或优越的性能，但需要进一步研究来提高我们对大型语言模型在类似孟加拉语等资源有限的语言中的理解。该研究强调了在不同语言环境中探索大型语言模型能力的持续努力的重要性。

May, 2024

句法数据增强提高推理启发健壮性

本研究探讨了如何在训练过程中利用句法信息来提高预训练模型 BERT 在自然语言推理上的表现，经过尝试，通过主语 / 宾语倒装能将模型在控制的测试中的准确率从 0.28 提升至 0.73，而对 MNLI 测试集影响不大，表明数据增强能帮助 BERT 招募抽象的句法表示从而提升模型的表现。

Apr, 2020

自然语言推理模型的行为分析：揭示三个因素对鲁棒性的影响

研究自然语言推理 (NLI) 模型的鲁棒性，特别关注三个因素：不敏感、极性和未见过的词汇。结果发现，所有模型在处理未见过的反义词语上表现都欠佳，并且容易受到单词和标签之间的简单统计相关性的影响。

May, 2018

自然语言推理中的句法启发式诊断：看出其本质

通过研究自然语言推断中机器学习模型的三种不可靠启发式方法：词汇重叠启发式，子序列启发式和成分启发式，我们引入了一个名为 HANS 的数据集，以确定模型是否采用了这些启发式，并发现 BERT 等最先进的模型在 HANS 上表现非常差，说明 NLI 系统仍有很大改进空间。

Feb, 2019

使用人类解释监督模型关注力以强化自然语言推理

探究利用自然语言解释来监督模型的注意力权重，促使其更集中于解释中的关键词，从而提高模型性能，此方法的实验表明，这种改进可以适用于其它 NLI 数据集

Apr, 2021

通过真实性探索神经 NLI 模型中的传递性

本文旨在研究表明了深度学习在自然语言处理方面的取得的成功，然而，对于它们能否展示出人类一样具有自然语言理解的概括能力的范围还不清楚。我们在自然语言推理领域探讨了这个问题，侧重于推理关系的可传递性，这是一种系统地进行推理的基本属性。结果表明，目前的自然语言推理模型无法很好地完成传递性推理任务，这表明它们缺少从提供的训练示例中综合推理的概括能力。

Jan, 2021

通过强制无效化来保持单词顺序的重要性

通过强制无效化模型对置换序列的识别，我们提出一种简单的方法，叫做 Forced Invalidation（FI），以帮助保留单词序列中的重要信息，从而显著提高了模型对于单词序列的敏感性。我们在多个英文 NLU 和基于 QA 的任务上对 BERT，以及基于注意力机制的模型进行了广泛的评估。

Apr, 2023