反事实推理：测试语言模型对假设场景的理解

ACLMay, 2023

反事实推理：测试语言模型对假设场景的理解

Counterfactual reasoning: Testing language models' understanding of hypothetical scenarios

Jiaxuan Li, Lang Yu, Allyson Ettinger

TL;DR通过调查五种预训练语言模型在特殊条件下进行的逆向推理，发现这种逆向推理主要受到基于单词关联的影响，只有 GPT-3 能够展现对语言细微差别的敏感性。

Abstract

Current pre-trained language models have enabled remarkable improvements in downstream tasks, but it remains difficult to distinguish effects of statistical correlation from more systematic logical reasoning grounded on the understanding of real world. We tease these factors apart by l

pre-trained language models counterfactual conditionals real-world knowledge psycholinguistic experiments linguistic nuances

发现论文，激发创造

反事实推理：语言模型在因果理解中是否需要世界知识？

本文通过使用反事实条件句，利用心理语言学实验和更大规模的数据集，对比了多种流行的预训练语言模型中的反事实预测，并发现大多数模型主要受简单的词汇线索驱动。当控制世界知识和词汇线索效应时，只有 GPT-3 在反事实细微差别的语言基础知识上显示出敏感性。

Dec, 2022

借助因果推理增强语言理解

本研究提出了反事实推理模型，在学习少量反事实样本的基础上，通过生成对于每个正面事实样本的代表性反事实样本，并使用回顾模块根据对比反事实和正事实样本来检查模型预测，从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的广泛实验验证了其有效性。

Jun, 2021

推理还是背诵？通过反事实任务探索语言模型的能力和限制

该研究旨在研究当前语言模型的抽象推理能力，提出一种基于 “反事实” 任务变体的评估框架，在一系列 11 项任务中观察到对反事实变体的表现，但表明当前语言模型的表现往往会严重且一致地降级，提示需要更加仔细地解释语言模型的表现。

Jul, 2023

如果电视关闭了会怎么样？研究多模态语言模型的反事实推理能力

我们聚焦于多模态大型语言模型的反事实推理能力进行基准测试，并通过新收集的测试数据集评估了最新的视觉语言模型和代码生成 LLMs 的能力，发现目前存在较大的发展空间。

Oct, 2023

运用反事实推论改善道德推理 —— 思想实验

本文提出了一种名为 Thought Experiments 的新提示框架，通过反事实让语言模型学习更好的道德推理。实验结果表明，使用这个提示框架可以消除 Moral Scenarios 任务的错误率，并且少量的人类监督可以显著提高任务的准确性。

Jun, 2023

反事实编辑器的反事实分析：一种基于回译的方法

通过提出一个新的反向翻译的评估方法，我们针对自然语言处理模型和任务的解释方法的一致性问题进行了调查和分析，并提出了一种新的测量指标来评估不同特征的反事实生成方法的一致性。

May, 2023

大型语言模型的反事实任务证据支持紧急类比推理

最近的研究证明，大型语言模型能够以零样本的方式解决各种基于文本的类比问题，表明存在一种新兴的类比推理能力。最近的两篇评论对这些结果提出了质疑，引用了所谓的 ' 反事实 ' 任务的证据，其中标准的字母序列被任意改变，以减少与语言模型训练数据中可能存在的材料的相似性。在这里，我们回应这些批评，并澄清了关于我们原始工作中使用的测试材料的一些误解，并提供证据证明语言模型也能够推广到这些新的反事实任务变体。

Apr, 2024

CausaLM：通过反事实语言模型解释因果模型

文章提出了 CausaLM 框架，基于 fine-tuning 的 deep contextualized embedding models 通过辅助对抗性训练任务，学习给定概念的反事实表示，用于估计其对模型性能的真实因果效应。我们的方法的副产品是一种语言表示模型，可以减轻数据中固有的不良偏差。

May, 2020

神经逆向生成：更为丰富的数据增强方法

本文提出了 NeuroCounterfactuals 方法，通过松散的对比事实产生更大规模的编辑，从而使得生成的文本包含语言多样性，同时与原始文档相似，使得训练数据增强在情感分类方面取得了良好的效果。

Oct, 2022

大型语言模型作为反事实生成器：优缺点

本研究探究了大型语言模型（LLMs）进行反事实生成和数据增强的能力，发现 LLMs 很有效的进行反事实生成，但因为自身限制和缺少实用逻辑指导，在某些复杂任务上表现欠佳。提供准确的任务定义和详细的操作步骤对于在 LLMs 中生成反事实具有决定性影响。同时，研究还证明了 LLMs 可能在缺乏合理演示的情况下生成合理的反事实，说明演示主要用于规范输出格式。因此，基于 LLMs 进行数据增强来增强 SLMs 是一种非常有前景的研究和应用方向。

May, 2023