语言模型是否能够执行假设式常识推理？

Jul, 2022

语言模型是否能够执行假设式常识推理？

Can Language Models perform Abductive Commonsense Reasoning?

Seungone Kim

TL;DR本文为解决 “Abductive Reasoning” 提出了多种方法，再现了基准模型。通过此报告，发现目前的方法仍有一些局限性。

Abstract

abductive reasoning is a task of inferring the most plausible hypothesis given a set of observations. In literature, the community has approached to solve this challenge by classifying/generating a likely

abductive reasoning hypothesis classification anli anlg

发现论文，激发创造

归纳常识推理

本研究介绍了一项关于抽象推理的新研究，并提出了两个基于新数据集 ART 的任务 ——《抽象自然语言推理》和《抽象自然语言生成》。该研究分析了当前最佳自然语言生成器的性能水平，探索了现有深度学习模型在推理能力方面的局限性，并在进一步的研究中提出了有趣的新方向。

Aug, 2019

非常规推理：关于非常规情况的归纳推理

通过研究不寻常、意外和不太可能的情境，我们探索了非常识性推理的能力，发布了一个名为 UNcommonsense 的英语语料库，并比较人类解释者和最佳大型语言模型的表现差异，最终尝试了几种在线模仿学习算法来训练开放和易用的语言模型，在人工评估中，这些方法在常见和非常识性推理上一致降低了错误率。

Nov, 2023

基于互斥解释的引入式常识推理

本文提出一种利用后验正则化来促进建模向区分流畅解释和可信解释的逻辑推断模型，以实现无样本学习的非监督归纳通用推理的方法，并在多个推理数据集上进行实验，结果表明此方法在零样本学习上表现出色，优于直接应用预训练语言模型和其他知识增强方法。

May, 2023

假设搜索：利用语言模型进行归纳推理

通过产生多个抽象假设并将其转化为具体的 Python 程序，进而为大型语言模型提高归纳推理能力，并利用自动生成的摘要或人工筛选的候选集来过滤生成的程序，从而在归纳推理任务中实现更高的准确性。

Sep, 2023

L2R2: 利用排名进行缺失推理

本文提出了一种基于排序的 $L2R^2$ 方法，用于解决自然语言推理任务中的假设排序问题，并使用 ESIM 或预训练语言模型（如 BERT 或 RoBERTa）作为评分函数，实验证明，该方法取得了 ART 数据集中最先进的性能水平。

May, 2020

简单尴尬：基于推断的自然语言推理性能预测

本文提出了一种快速预测基于上下文表示的自然语言推理模型性能的方法，通过比较句子嵌入的余弦相似性，避免了费时的微调，减少了模型选择过程中的时间消耗。

Feb, 2022

基于案例推导的自然语言推理

本文提出了一种基于使用类比方法从类似示例中进行先前的解释传递的情形推理及案例推理自然语言推理模型，即 Case-Based Abductive Natural Language Inference (CB-ANLI)，并在常识和科学问答任务上进行了实证评估，结果表明，CB-ANLI 可以有效地与稀疏和密集的预训练编码器集成以改善多次跳跃推理，或作为变压器的证据检索器。此外，对语义漂移的实证分析表明，CBR 范式提高了最具挑战性的解释的质量，这一特性对下游推理任务的稳健性和准确性具有直接影响。

Sep, 2020

大型语言模型中的不完全循环：演绎、归纳和演绎学习

通过研究不同类型的推理方式，以及对语言模型进行的指令跟随、少样本提示和指令推断实验，我们发现即使在一些最大的语言模型中，推理的方式仍然是非系统性的，不同的学习机制可能被看似相似的提示程序调用。

Apr, 2024

具有不完整信息的自然语言推断

通过混合演绎（前向）和择优推断（后向）生成步骤进行阴性推断，以验证其他假设的缺失证据，避免致信任错误。

Jul, 2023

自然语言推断与不完整信息

提出了一个处理模糊的假设的新系统，使用自然语言生成模型来从一个前提中推出另一个前提并以双向的方式搜索。使用回路验证程序过滤质量不佳的生成来确保正确性。该系统在修改后的 EntailmentBank 数据集和名为 “Everyday Norms：Why Not?“的新数据集上表现出可以恢复跨领域和非领域的前提的能力。

Nov, 2022