从复杂到简单：揭示小型语言模型推理的认知树

EMNLPNov, 2023

从复杂到简单：揭示小型语言模型推理的认知树

From Complex to Simple: Unraveling the Cognitive Tree for Reasoning with Small Language Models

Junbing Yan, Chengyu Wang, Taolin Zhang, Xiaofeng He, Jun Huang...

TL;DR通过使用认知树 (CogTree) 框架，我们揭示了语言模型的认知推理能力，并证明可以使用明显较小的语言模型 (<=7B) 达到与 GPT-3.5 相当的性能水平，而 GPT-3.5 具有更多的参数（175 亿）。

Abstract

reasoning is a distinctive human capacity, enabling us to address complex problems by breaking them down into a series of manageable cognitive steps. Yet, complex logical reasoning is still cumbersome for

reasoning language models cognitive tree implicit extraction module explicit reasoning module

发现论文，激发创造

语言模型中的概念和公正推理

我们提出了一个新的概念化框架，迫使模型在抽象问题上进行概念推理并在可验证的符号空间中生成解决方案，使用这个框架作为分析工具，我们发现现有的大型语言模型在概念推理方面存在不足，并通过引入可信的归纳信号来改善模型的概念推理性能，实验证明我们提出的技术使模型的概念推理性能提高了 8% 至 11%，实现了一个更强大的推理系统，更少地依赖归纳偏见。

Mar, 2024

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

大语言模型的推理能力：一项调查

本文综述了大型语言模型在推理方面的最新研究，包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法，以及这一领域之前研究的发现和意义，旨在激发有意义的讨论和未来的研究。

Dec, 2022

回答知识密集型复杂问题的概率思维推理

大型语言模型（LLMs）能够用链式思维推理回答知识密集型复杂问题，但当模型的参数中缺少所需的知识或不是最新的时，它们往往会产生错误的推理步骤。本文提出一种新方法：概率思维树推理（ProbTree）。在开放领域的情境下，我们利用外部知识检索加强链式推理，通过解决从叶节点到根节点的问题，考虑问题分解和回答的置信度，在推理过程中消除了负面检索问题，并借助层次结构对非叶节点进行全局推理，从而弥补了局部错误。实验证明，我们的方法在三个复杂问答数据集上显著优于最先进方法，证明了概率思维树推理的有效性。

Nov, 2023

语言模型对推理的人类内容效应展示

大型语言模型在抽象推理任务上表现优秀，但与人类推理问题存在相似的缺陷，同时受到人类知识和信仰的影响，使用可信的现实情境方案进行推理可以提高推理质量，这种关联性帮助我们了解认知效应和语言模型表现的因素。

Jul, 2022

为什么要逐步思考？推理出自于体验的本地性

使用语言模型探究推理何时及为何有帮助，得出推理步骤的有效性取决于训练数据的统计结构和中间变量与目标推理之间的相关性。

Apr, 2023

语言模型可作为逻辑求解器

LoGiPT 是一种新颖的语言模型，通过直接模拟逻辑求解器的推理过程并严格遵守求解器的语法规则，绕过分析错误，并在竞争的语言模型上表现出优异的性能。

Nov, 2023

MetaLogic：带有细粒度结构的逻辑推理解释

本研究提出了一个综合性基准来研究模型在复杂的现实场景中的逻辑推理能力。我们设计了细粒度的逻辑推理解释形式，并在实验中评估了当前最佳模型在这种新的解释形式上的表现，结果表明即使在巨型模型的帮助下，生成推理图仍然是一个具有挑战性的任务。

Oct, 2022

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

通过知识蒸馏进行的隐含推理链条

使用语言模型的内部隐藏状态进行隐式推理，通过垂直在不同层的隐藏状态中进行推理来解决以前无法解决的任务，而无需进行明确的思维链条推理。

Nov, 2023