运用反事实推论改善道德推理——思想实验
本文通过使用反事实条件句,利用心理语言学实验和更大规模的数据集,对比了多种流行的预训练语言模型中的反事实预测,并发现大多数模型主要受简单的词汇线索驱动。当控制世界知识和词汇线索效应时,只有 GPT-3 在反事实细微差别的语言基础知识上显示出敏感性。
Dec, 2022
通过使用“Let's think step by step”等输入提示来生成排列步骤,Plan-and-Solve (PS) Prompting解决了Zero-shot-CoT存在的缺失计算错误,缺失步骤错误和语义误解错误,是一种有效的零次提示策略,能够在数学推理问题上与8-shot CoT提示相媲美,并优于Zero-shot-CoT和Zero-shot-Program-of-Thought提示。
May, 2023
通过调查五种预训练语言模型在特殊条件下进行的逆向推理,发现这种逆向推理主要受到基于单词关联的影响,只有 GPT-3 能够展现对语言细微差别的敏感性。
May, 2023
我们聚焦于多模态大型语言模型的反事实推理能力进行基准测试,并通过新收集的测试数据集评估了最新的视觉语言模型和代码生成LLMs的能力,发现目前存在较大的发展空间。
Oct, 2023
通过引入跨语言提示和跨语言自洽提示,本研究提出了一种改进零-shot推理的链思维 (CoT) 方法,以在不同语言之间提高推理性能,并在多个基准测试中获得了最先进的结果。
Oct, 2023
最近的研究证明,大型语言模型能够以零样本的方式解决各种基于文本的类比问题,表明存在一种新兴的类比推理能力。最近的两篇评论对这些结果提出了质疑,引用了所谓的'反事实'任务的证据,其中标准的字母序列被任意改变,以减少与语言模型训练数据中可能存在的材料的相似性。在这里,我们回应这些批评,并澄清了关于我们原始工作中使用的测试材料的一些误解,并提供证据证明语言模型也能够推广到这些新的反事实任务变体。
Apr, 2024
该论文介绍了MalAlgoQA,这是一个用于评估大型语言模型(LLMs)通过教育方法的反事实推理能力的新型数据集。该数据集包含数学和阅读理解问题,每个问题都附有四个答案选项及其对应的解释。我们关注不正确答案解释,称为“malgorithms”,强调导致错误答案的错误推理步骤,并提供有关错误思维过程的有价值的见解。我们还提出了Malgorithm识别任务,用于根据给定的错误答案选择来评估LLMs识别相应malgorithm的能力。为了评估模型性能,我们引入了两个指标:正确答案解释的算法识别准确率(AIA)和错误答案解释的malgorithm识别准确率(MIA)。该任务具有挑战性,因为最先进的LLMs在MIA方面表现出较大的下降。此外,我们发现,“思维链提示”技术不仅无法始终提高MIA,而且与简单提示相比也可能导致性能不佳。这些发现在更注重教育视角的更具认知启发的LLMs的开发中具有重要意义,以提高其反事实推理能力,特别是在理解和纠正学生错误观念方面。
Jul, 2024
本研究探讨了语言模型训练数据中的偏见对选择答案偏好的影响,特别是在大规模多任务语言理解(MMLU)任务中的体现。我们提出的两种新方法——反事实提示结合思维链(CoT)和反事实提示结合无偏激活的思维链(APriCoT),有效减少了基准概率的影响,并显著提高了模型的整体准确性,推动了更公平强大的语言模型的发展。
Aug, 2024