何时使用思考方案进行推理？

Aug, 2023

When Do Program-of-Thoughts Work for Reasoning?

Zhen Bi, Ningyu Zhang, Yinuo Jiang, Shumin Deng, Guozhou Zheng...

TL;DR利用结构和逻辑属性以及优化代码复杂度对大型语言模型 (LLM) 的推理能力进行评估和改进。

Abstract

The reasoning capabilities of large language models (LLMs) play a pivotal role in the realm of embodied artificial intelligence. Although there are effective methods like program-of-thought prompting for LLMs whi

large language models reasoning capabilities code data complexity-impacted reasoning score improvement of reasoning abilities

发现论文，激发创造

探究大型编程语言模型的因果推理能力中的 IF 魔术

研究人员比较了基于文本和代码的大型语言模型对因果推理的能力，结果表明，相较于只针对文本的模型，基于代码编写的模型在因果推理方面更为出色。

May, 2023

语言模型作为编译器：模拟伪代码执行提升语言模型的算法推理能力

该论文介绍了一种名为 Think-and-Execute 的新框架，它将语言模型的推理过程分解为两步：首先在思考阶段，发现共享于给定任务所有实例的任务级逻辑，然后用伪代码表达逻辑；然后在执行阶段，进一步针对每个实例调整生成的伪代码并模拟代码的执行。通过对七个算法推理任务进行大量实验证明了 Think-and-Execute 的有效性。相较于执行特定实例推理的强基线（例如 CoT 和 PoT），我们的方法更好地提高了语言模型的推理能力，这表明发现任务级逻辑的帮助性。此外，我们还展示了相对于自然语言，伪代码可以更好地引导语言模型的推理，即使它们经过自然语言指导的训练。

Apr, 2024

CodeMind：一个挑战大型语言模型进行代码推理的框架

CodeMind 是一个评估大型语言模型的代码推理能力的框架，通过 Independent Execution Reasoning（IER）、Dependent Execution Reasoning（DER）和 Specification Reasoning（SR）三个任务对九个大型语言模型进行了广泛评估，发现它们对于简单的程序和可以正确合成的程序在控制流构造和输入到输出的推理方面表现良好，但对于更复杂、具有非平凡逻辑和算术运算符、非基本类型和 API 调用的代码，它们的性能下降。此外，规范推理（代码合成所必需的）与执行推理（用于更广泛的编程任务，如测试和调试）相关但不相等，基于测试通过来排名大型语言模型的结果可能与代码推理不同。

Feb, 2024

大型语言模型的逻辑推理能力系统评估

最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色，但它们真正能够对自然语言进行 “推理” 吗？本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力，并引入了 LogicBench，一个关注单个推理规则使用的自然语言问答数据集，通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明，现有的 LLMS 在 LogicBench 上表现不佳，尤其在涉及复杂推理和否定的情况下遇到困难，并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。

Apr, 2024

在训练的哪个阶段，代码数据对 LLMs 的推理有帮助？

使用代码数据在预训练和指令调整阶段可以显著增强大型语言模型的推理能力，同时动态混合代码和文本数据有助于逐步学习推理能力。

Sep, 2023

大型语言模型的推理能力：对抽象与推理语料库的深度分析

利用 Abstract and Reasoning Corpus 数据集的新方法，我们评估了大型语言模型的推理和上下文理解能力，结果表明虽然大型语言模型具有薄弱的推理能力，但在逻辑连贯性、组合性和生产力方面仍然落后于人类，我们的实验突显了 LLM 的推理能力，并提出了实现人类级别推理的发展路径。

Mar, 2024

代码提示引发了文本 + 代码模型的条件推理能力

通过将自然语言问题转化为代码并用生成的代码提示进行训练，作者发现代码提示在需要条件推理的多个数据集上提高了 2.6 到 7.7 个 GPT 3.5 的绩效，并且观察到代码提示需要包含自然语言文本和高质量代码，以及其触发更优的变量或关键实例的状态跟踪。

Jan, 2024

基于大语言模型的推理自动模型选择

本研究通过使用不同的模型进行模型选择，在充分分析理论基础上，在八个推理数据集上实现了显著的性能改进，并在 GSM8K 和 SVAMP 上实现了 96.5％和 93.7％的准确率，达到了最新的研究成果。

May, 2023

从复杂到简单：揭示小型语言模型推理的认知树

通过使用认知树 (CogTree) 框架，我们揭示了语言模型的认知推理能力，并证明可以使用明显较小的语言模型 (<=7B) 达到与 GPT-3.5 相当的性能水平，而 GPT-3.5 具有更多的参数（175 亿）。

Nov, 2023

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024