SETI: 文本推理的系统性评估

ACLMay, 2023

SETI: Systematicity Evaluation of Textual Inference

Xiyan Fu, Anette Frank

TL;DRSETI 是一个用于评估预训练语言模型（PLMs）在文本推理领域中系统能力的新型综合性基准。它提供了三种不同的 NLI 任务和相应的数据集来评估模型在推理过程中各种类型的系统性。

Abstract

We propose seti (Systematicity Evaluation of textual inference), a novel and comprehensive benchmark designed for evaluating pre-trained language

seti pre-trained language models textual inference systematicity capabilities nli tasks

发现论文，激发创造

日语文本蕴涵和相似性的组合评估

本论文介绍了 JSICK，一个从英语数据集 SICK 人工翻译而来的日语 NLI/STS 数据集。我们对不同的预训练语言模型进行了基准实验，并比较了多语言模型在日语和其他语言中的表现。压力测试实验的结果表明，当前的预训练语言模型对于单词顺序和语义标记不敏感。

Aug, 2022

使用大型语言模型进行可解释的逻辑推理的 Selection-Inference 方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

SpaceNLI: 评估推理预测的一致性

通过语义推理研究各种类型的空间表达方式与推理模式，我们创建了一个名为 SpaceNLI 的数据集，并测试了几种 NLI 系统的它们对于空间推理复杂度和系统能力的提高。通过评估结果，我们发现系统对于空间 NLI 问题获得了适度的结果，但缺乏推理模式的一致性。结果还表明，非射影空间推理（尤其是由 “between” 介词引起的）是最具挑战性的。

Jul, 2023

自然语言推理的压力测试评估

本文提出了一个评估方法，即通过自动构建的 “压力测试” 来测试 NLI 模型的推理能力，评估了六种句子编码模型在这些测试中的表现，揭示了模型在面对复杂语言现象时的优势和劣势，为以后的研究方向提供了重要的指导意义。

Jun, 2018

探究语言系统性

本文讨论深度自然语言理解模型的系统性问题，通过在自然语言推理（NLI）中进行一系列实验，证明了一些 NLU 系统虽然不具备系统性，但仍能够达到高的整体表现。

May, 2020

探究预训练和知识增强模型在自然语言推理中的应用的多个实验

该研究探索了无监督预训练和外部知识对自然语言推断任务的影响，以了解其如何帮助自然语言理解和解决 NLP 问题。

Apr, 2019

神经机器翻译中语义现象的自然语言推理评估

本文提出一个过程，用于研究神经机器翻译 (NMT) 系统生成的句子表示如何编码不同的语义现象，最终发现编码器最适合在语法 - 语义界面上支持推理，而不是需要世界知识的指代消解。

Apr, 2018

LogicInference: 一份新的数据集，用于教导 seq2seq 模型进行逻辑推理

该论文介绍了 LogicInference 数据集，主要用来评估模型在逻辑推理方面的能力，该数据集涵盖了命题逻辑和部分一阶逻辑，并用半正式的逻辑符号和自然语言表示。同时，论文还对多种机器学习模型在该数据集上的初步实验结果进行了报告，建立了一个基础基线。

Mar, 2022

本文探讨了预训练语言模型在自然语言推理方面的浅层启发式方法，指出缺乏泛化性。通过构建自己的基于 syllogistic 的数据集并评估其在一系列模型上的表现，发现模型过多地依赖某些浅层启发式方法，暗示目前的模型不是在学习自然语言推理，而是一些虚假的启发式方法。

Jan, 2022

用于自然语言推理复杂组合知识评估的合成数据集

本研究介绍了一个名为 SICCK 的合成数据集和一种新颖的分析方法，通过修改自然语言推理（NLI）模型可理解逻辑组成性的性能，并发现 NLI 模型在零 - shot 和精调情况下对带有量词和否定的修饰语进行修改后的句子表现不佳。

Jul, 2023