从启发法到理性：语言模型推理的动态启发法使用

Jun, 2024

从启发法到理性：语言模型推理的动态启发法使用

First Heuristic Then Rational: Dynamic Use of Heuristics in Language Model Reasoning

Yoichi Aoki, Keito Kudo, Tatsuki Kuribayashi, Shusaku Sone, Masaya Taniguchi...

TL;DR语言模型在多步推理中在早期阶段更依赖于启发式方法，包括词汇重叠，但随着接近最终答案，启发式方法的依赖程度减少，语言模型动态结合启发式和逻辑策略进行多步推理任务。

Abstract

multi-step reasoning is widely adopted in the community to explore the better performance of language models (LMs). We report on the syste

multi-step reasoning language models heuristics logical strategies performance

发现论文，激发创造

探索语言模型的多步推理能力的机械解释

在这篇论文中，我们通过探索一种机械化方法来回答语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的疑问。我们引入了一种新的探测方法（称为机械化探测器），从模型的注意力模式中恢复推理树，用于分析两个语言模型：GPT-2 在一个合成任务（第 k 个最小元素）上以及 LLaMA 在两个简单的基于语言的推理任务（ProofWriter 和 AI2 推理挑战）上。我们展示了机械化探测器能够在大多数示例中从模型的注意力中检测到推理树的信息，这表明在许多情况下语言模型确实在其架构中经历了一个多步推理的过程。

Oct, 2023

第一步优势：多步推理中开始正确的重要性

大型语言模型可以通过为其预测生成理由来解决复杂的推理任务。通过将这些功能融入到较小、紧凑的模型中，可以促进为特定任务量身定制的专门、经济高效的模型的创建。然而，较小的模型在复杂的推理任务中常常面临挑战，并且通常会偏离正确的推理路径。我们发现，只有在恰当的时机介入，大型语言模型才能指导较小的模型并将它们带回正确的推理路径。我们发现，较小的模型在推理方面主要因为难以启动过程而失败，引导它们朝正确的方向发展可以使性能提高 100% 以上。我们探索不同的模型大小并评估提供指导以改善较小模型推理能力的益处。

Nov, 2023

利用大型语言模型进行忠实推理

通过串联使用微调语言模型进行多步推理的方法，可以解决大型语言模型的单次调用限制，提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型，并生成可由用户检查的有效推理过程。

Aug, 2022

思路规划：以启发式引导的大型语言模型问题解决方案

在本研究中，我们使用基于规划的方法结合部分可观察马尔可夫决策过程（POMDPs）来解决多步骤的问题，并通过 POMCP 在线求解器在 24 点游戏任务上展现出了 89.4% 的优越成功率，同时也提供了比之前使用的固定树搜索更好的任意时间性能。

Apr, 2024

从启发式到分析：认知动机的一致物理常识推理策略

预训练语言模型（PLMs）通过启发式分析和分析性推理链条的策略，改善了模型决策的连贯性，并且在物理常识推理方面取得了最先进的结果，进一步表明人类类推理策略可以有效提高 PLM 的决策连贯性和可靠性。

Oct, 2023

为什么要逐步思考？推理出自于体验的本地性

使用语言模型探究推理何时及为何有帮助，得出推理步骤的有效性取决于训练数据的统计结构和中间变量与目标推理之间的相关性。

Apr, 2023

从算术任务中学习多步推理

本研究探究如何将较小的语言模型与多步推理能力相结合，通过在合成数据集 MsAT 上进行持续的预训练，我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。

Jun, 2023

利用大型语言模型进行 K 级推理

通过提出一种名为 “K 级推理” 的新型推理方法，我们在大型语言模型中加强了动态情境中的决策制定能力，并为动态推理能力的评估设定了一个坚实的定量基准。

Feb, 2024

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

现象异常而令人迷惑：用假设修正测试语言模型的归纳推理能力

使用迭代性的假设修正技术，通过三步骤的提议、选择和修正来研究语言模型在归纳推理任务中的能力，并发现其在产生假设和筛选规则方面表现出色，但在识别可信规则和应用提议规则方面存在差距，揭示了语言模型在归纳推理任务中的潜力和局限。

Oct, 2023