运用反事实推论改善道德推理——思想实验

Jun, 2023

运用反事实推论改善道德推理——思想实验

Let's Do a Thought Experiment: Using Counterfactuals to Improve Moral Reasoning

Xiao Ma, Swaroop Mishra, Ahmad Beirami, Alex Beutel, Jilin Chen

TL;DR本文提出了一种名为Thought Experiments的新提示框架，通过反事实让语言模型学习更好的道德推理。实验结果表明，使用这个提示框架可以消除Moral Scenarios任务的错误率，并且少量的人类监督可以显著提高任务的准确性。

Abstract

language models still struggle on moral reasoning, despite their impressive performance in many other tasks. In particular, the Moral Scenarios task in MMLU (→

发现论文，激发创造

大型语言模型是零样本推理器

该研究发现预训练的大型语言模型可以成为良好的零样本推理器，提出了一种零样本的CoT方法，将其用于多种复杂的推理任务并取得了显著的性能提升。

May, 2022

反事实推理：语言模型在因果理解中是否需要世界知识？

本文通过使用反事实条件句，利用心理语言学实验和更大规模的数据集，对比了多种流行的预训练语言模型中的反事实预测，并发现大多数模型主要受简单的词汇线索驱动。当控制世界知识和词汇线索效应时，只有 GPT-3 在反事实细微差别的语言基础知识上显示出敏感性。

Dec, 2022

Plan-and-Solve Prompting: 通过大型语言模型改进零样本思维链推理

通过使用“Let's think step by step”等输入提示来生成排列步骤，Plan-and-Solve (PS) Prompting解决了Zero-shot-CoT存在的缺失计算错误，缺失步骤错误和语义误解错误，是一种有效的零次提示策略，能够在数学推理问题上与8-shot CoT提示相媲美，并优于Zero-shot-CoT和Zero-shot-Program-of-Thought提示。

May, 2023

反事实推理：测试语言模型对假设场景的理解

通过调查五种预训练语言模型在特殊条件下进行的逆向推理，发现这种逆向推理主要受到基于单词关联的影响，只有 GPT-3 能够展现对语言细微差别的敏感性。

May, 2023

如果电视关闭了会怎么样？研究多模态语言模型的反事实推理能力

我们聚焦于多模态大型语言模型的反事实推理能力进行基准测试，并通过新收集的测试数据集评估了最新的视觉语言模型和代码生成LLMs的能力，发现目前存在较大的发展空间。

Oct, 2023

跨语言提示：改进语言间的零翻译思维推理

通过引入跨语言提示和跨语言自洽提示，本研究提出了一种改进零-shot推理的链思维 (CoT) 方法，以在不同语言之间提高推理性能，并在多个基准测试中获得了最先进的结果。

Oct, 2023

利用反事实任务评估大型语言模型的类比推理能力

研究表明，尽管大型语言模型在类比推理方面表现出色，但它们缺乏人类类比能力的鲁棒性和普遍性。

Feb, 2024

大型语言模型的反事实任务证据支持紧急类比推理

最近的研究证明，大型语言模型能够以零样本的方式解决各种基于文本的类比问题，表明存在一种新兴的类比推理能力。最近的两篇评论对这些结果提出了质疑，引用了所谓的'反事实'任务的证据，其中标准的字母序列被任意改变，以减少与语言模型训练数据中可能存在的材料的相似性。在这里，我们回应这些批评，并澄清了关于我们原始工作中使用的测试材料的一些误解，并提供证据证明语言模型也能够推广到这些新的反事实任务变体。

Apr, 2024

MalAlgoQA：评估反事实推理能力的教育方法

该论文介绍了MalAlgoQA，这是一个用于评估大型语言模型（LLMs）通过教育方法的反事实推理能力的新型数据集。该数据集包含数学和阅读理解问题，每个问题都附有四个答案选项及其对应的解释。我们关注不正确答案解释，称为“malgorithms”，强调导致错误答案的错误推理步骤，并提供有关错误思维过程的有价值的见解。我们还提出了Malgorithm识别任务，用于根据给定的错误答案选择来评估LLMs识别相应malgorithm的能力。为了评估模型性能，我们引入了两个指标：正确答案解释的算法识别准确率（AIA）和错误答案解释的malgorithm识别准确率（MIA）。该任务具有挑战性，因为最先进的LLMs在MIA方面表现出较大的下降。此外，我们发现，“思维链提示”技术不仅无法始终提高MIA，而且与简单提示相比也可能导致性能不佳。这些发现在更注重教育视角的更具认知启发的LLMs的开发中具有重要意义，以提高其反事实推理能力，特别是在理解和纠正学生错误观念方面。

Jul, 2024

超越偏见的推理：关于反事实提示和思维链推理的研究

本研究探讨了语言模型训练数据中的偏见对选择答案偏好的影响，特别是在大规模多任务语言理解（MMLU）任务中的体现。我们提出的两种新方法——反事实提示结合思维链（CoT）和反事实提示结合无偏激活的思维链（APriCoT），有效减少了基准概率的影响，并显著提高了模型的整体准确性，推动了更公平强大的语言模型的发展。

Aug, 2024