何时使用思考方案进行推理?
研究人员比较了基于文本和代码的大型语言模型对因果推理的能力,结果表明,相较于只针对文本的模型,基于代码编写的模型在因果推理方面更为出色。
May, 2023
该论文介绍了一种名为 Think-and-Execute 的新框架,它将语言模型的推理过程分解为两步:首先在思考阶段,发现共享于给定任务所有实例的任务级逻辑,然后用伪代码表达逻辑;然后在执行阶段,进一步针对每个实例调整生成的伪代码并模拟代码的执行。通过对七个算法推理任务进行大量实验证明了 Think-and-Execute 的有效性。相较于执行特定实例推理的强基线(例如 CoT 和 PoT),我们的方法更好地提高了语言模型的推理能力,这表明发现任务级逻辑的帮助性。此外,我们还展示了相对于自然语言,伪代码可以更好地引导语言模型的推理,即使它们经过自然语言指导的训练。
Apr, 2024
CodeMind 是一个评估大型语言模型的代码推理能力的框架,通过 Independent Execution Reasoning(IER)、Dependent Execution Reasoning(DER)和 Specification Reasoning(SR)三个任务对九个大型语言模型进行了广泛评估,发现它们对于简单的程序和可以正确合成的程序在控制流构造和输入到输出的推理方面表现良好,但对于更复杂、具有非平凡逻辑和算术运算符、非基本类型和 API 调用的代码,它们的性能下降。此外,规范推理(代码合成所必需的)与执行推理(用于更广泛的编程任务,如测试和调试)相关但不相等,基于测试通过来排名大型语言模型的结果可能与代码推理不同。
Feb, 2024
最近发展的大型语言模型 (LLMs) 在各种语言理解任务上表现出色,但它们真正能够对自然语言进行 “推理” 吗?本文综合评估了 LLMS 在涵盖命题逻辑、一阶逻辑和非单调逻辑的 25 种不同推理模式上的逻辑推理能力,并引入了 LogicBench,一个关注单个推理规则使用的自然语言问答数据集,通过使用一系列的连贯思维提示与 GPT-4、ChatGPT、Gemini、Llama-2 和 Mistral 等多个 LLMS 进行详细分析。实验结果表明,现有的 LLMS 在 LogicBench 上表现不佳,尤其在涉及复杂推理和否定的情况下遇到困难,并有时忽视推理所需的上下文信息以得出正确结论。我们认为我们的工作和发现将有助于未来评估和提升 LLMS 的逻辑推理能力。
Apr, 2024
利用 Abstract and Reasoning Corpus 数据集的新方法,我们评估了大型语言模型的推理和上下文理解能力,结果表明虽然大型语言模型具有薄弱的推理能力,但在逻辑连贯性、组合性和生产力方面仍然落后于人类,我们的实验突显了 LLM 的推理能力,并提出了实现人类级别推理的发展路径。
Mar, 2024
通过将自然语言问题转化为代码并用生成的代码提示进行训练,作者发现代码提示在需要条件推理的多个数据集上提高了 2.6 到 7.7 个 GPT 3.5 的绩效,并且观察到代码提示需要包含自然语言文本和高质量代码,以及其触发更优的变量或关键实例的状态跟踪。
Jan, 2024
本研究通过使用不同的模型进行模型选择,在充分分析理论基础上,在八个推理数据集上实现了显著的性能改进,并在 GSM8K 和 SVAMP 上实现了 96.5%和 93.7%的准确率,达到了最新的研究成果。
May, 2023
通过使用认知树 (CogTree) 框架,我们揭示了语言模型的认知推理能力,并证明可以使用明显较小的语言模型 (<=7B) 达到与 GPT-3.5 相当的性能水平,而 GPT-3.5 具有更多的参数(175 亿)。
Nov, 2023
通过对归纳逻辑编程基准测试的深入评估,本研究表明与模型规模较小的神经程序归纳系统相比,最新的大型语言模型在推理能力方面表现较差,无论是使用自然语言提示还是真值矩阵提示,它们在性能和泛化方面都表现较低。
Jan, 2024