大型语言模型中的不完全循环：演绎、归纳和演绎学习

Apr, 2024

大型语言模型中的不完全循环：演绎、归纳和演绎学习

An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models

Emmy Liu, Graham Neubig, Jacob Andreas

TL;DR通过研究不同类型的推理方式，以及对语言模型进行的指令跟随、少样本提示和指令推断实验，我们发现即使在一些最大的语言模型中，推理的方式仍然是非系统性的，不同的学习机制可能被看似相似的提示程序调用。

Abstract

Modern language models (LMs) can learn to perform new tasks in different ways: in instruction following, the target task is described explicitly in natural language; in →

language models instruction following few-shot prompting instruction inference reasoning

发现论文，激发创造

人类和大型语言模型在演绎推理中的推理策略比较

该研究通过对大型语言模型在命题逻辑问题上的响应进行细致评估，利用认知心理学原理探讨了模型使用的推理策略。结果发现，大型语言模型展示出类似于人类的推理模式，包括 “解释跟踪” 和 “链式构建” 等策略。此外，该研究表明模型的架构和规模显著影响其首选的推理方法，较先进的模型更倾向于频繁使用这些策略。模型的准确性并不必然反映其推理过程的有效性，这一区别强调了该领域需要更为精细的评估程序。

Feb, 2024

假设搜索：利用语言模型进行归纳推理

通过产生多个抽象假设并将其转化为具体的 Python 程序，进而为大型语言模型提高归纳推理能力，并利用自动生成的摘要或人工筛选的候选集来过滤生成的程序，从而在归纳推理任务中实现更高的准确性。

Sep, 2023

大型语言模型是上下文语义推理者而非符号推理者

本文研究了大型语言模型 LLMs 的推理能力，通过对语义从推理过程中的剥离进行实验，发现语义在 LLMs 的推理中起着至关重要的作用，但在符号逻辑和违反常识的推理任务中表现出困难。作者提出了这一发现的新视角，并呼吁深入研究 LLMs 的推理机制。

May, 2023

大型语言模型真的是良好的逻辑推理者吗？从演绎、归纳和举例推理的综合评估

本文针对大型语言模型的逻辑推理能力进行全面评估，选择 15 个经典数据集，评估模型的零点、单点和三点能力，提出客观和主观的细化评估方法，归纳出 LLMs 的逻辑推理能力的优势和不足并提出未来方向。

Jun, 2023

现象异常而令人迷惑：用假设修正测试语言模型的归纳推理能力

使用迭代性的假设修正技术，通过三步骤的提议、选择和修正来研究语言模型在归纳推理任务中的能力，并发现其在产生假设和筛选规则方面表现出色，但在识别可信规则和应用提议规则方面存在差距，揭示了语言模型在归纳推理任务中的潜力和局限。

Oct, 2023

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

评估大型语言模型的推理能力

大型语言模型（LLMs）的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现，这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验，探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异，但总体性能并未提高。此外，我们还发现性能与展示格式和内容以出人意料的方式相互作用，与人类表现有所不同。总的来说，我们的结果表明 LLMs 具有独特的推理偏见，其只能部分预测人类的推理表现。

Sep, 2023

使用大型语言模型进行可解释的逻辑推理的 Selection-Inference 方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

预先训练的语言模型是否具备演绎推理能力？

本文对预训练语言模型的可学习演绎性能进行了全面评估，发现该模型存在推理规则泛化不足、对表面形式的修改表现不稳定、在推理过程中出现遗忘现象等问题，说明预训练语言模型对于演绎推理的表现仍不可靠，远未达到人类的推理能力。

Oct, 2022