链式思维推理的潜在技能发现

Dec, 2023

Latent Skill Discovery for Chain-of-Thought Reasoning

Zifan Xu, Haozhu Wang, Dmitriy Bespalov, Peter Stone, Yanjun Qi

TL;DR最近的大型语言模型 (LLMs) 的前进使得思维链 (CoT) 提醒的紧急能力增加，它是一种在问题和答案之间添加中间的合理步骤来构造提示的合理推理策略。在这些提示的条件下，LLMs 可以有效地学习上下文以生成比直接回答相同问题更准确的答案所需的合理性。为了设计 LLM 提示，有一个重要的设置，称为演示选择，它考虑从示例库中选择演示。现有的方法使用各种启发式方法进行选择，但对于涉及独特合理性的 CoT 提示而言，基于 CoT 合理性所需的固有技能进行选择至关重要，例如数学问题的加减法技能。为了解决这个要求，我们介绍了一种称为 “推理技能发现”（RSD）的新方法，它使用无监督学习创建合理性的潜在空间表示，称为推理技能。同时，RSD 学习一个推理策略来确定给定问题所需的推理技能。这可以指导演示所需的推理技能的选择。我们的方法具有几个理想的特性：它在理论上是有依据的，它需要较少的样本，不需要 LLM 推断或手动提示设计，且与 LLM 无关。从经验上看，RSD 在多个推理任务中的答案准确性方面优于现有方法多达 6%。

Abstract

Recent advances in large language models (LLMs) have led to an emergent ability of chain-of-thought (CoT) prompting, a prompt reasoning strategy that adds intermediate rationale steps between questions and answers to construct prompts. Conditioned on these prompts, LLMs can effectively

large language models chain-of-thought prompting reasoning skill discovery rationales demonstration selection

发现论文，激发创造

使用链式知识提示提升语言模型推理能力

引入了一种新的 Chain-of-Knowledge (CoK) 提示方法，旨在引导强大的语言模型（LLMs）生成显式的知识证明作为结构三元组，从而改进 Commonsense、事实、符号和算术推理任务的性能，并引入 F^2-Verification 方法估计链的可靠性

Jun, 2023

走向理解思路链提示：对重要性的经验研究

本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响，发现即使使用无效的推理步骤，其提示也能达到 80-90% 的性能，并探究了其他理性方面的影响。

Dec, 2022

大型语言模型的自动思维联想提示

本论文提出一种基于链式推理的自动提问方法 Auto-CoT，通过采样具有多样性的问题并生成推理链来构建演示，在十项公共基准推理任务中，Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。

Oct, 2022

大型语言模型的思路链主动提示

本文提出了一种新的方法 Active-Prompt，通过任务特定的示例提示来适应 LLMs 的不同任务，通过从特定的查询池中选择最不确定的问题进行注释来确定哪些问题是最重要和有帮助的。经验结果表明了我们提出的方法的优越性，取得了八项复杂推理任务的最新成果。

Feb, 2023

无需提示的逻辑链推理

大规模语言模型的推理能力可通过修改解码过程有效地引出连续推理路径，而不需要手动设计提示技术，这种具备内在推理能力的解码方法优于传统贪婪解码方式。

Feb, 2024

大型语言模型作为类比推理者

通过模拟推理为大型语言模型自动生成相关样本或知识的新提示方法在各种推理任务中表现优于零示范的链式思考提示和人工少量示范的链式思考，包括 GSM8K 和 MATH 中的数学问题解决、Codeforces 中的代码生成和 BIG-Bench 中的其他推理任务。

Oct, 2023

通过潜变量推断训练思维链

大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释，一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而，我们提出了一种微调策略，尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然，大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题，并采用一种新颖的控制变量技术，随着模型的改进，将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务，我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。

Nov, 2023

大型语言模型中多跳问答的图引导推理

通过引入图引导的 CoT 提示方法，以问题 / 理由图为基础的图引导推理方法在多步骤推理中表现出优越性能。

Nov, 2023

大型语言模型中的模式感知思维链激励

链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法，通过在中间步骤中结合步长和推理过程等模式，有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准任务的实验，结果表明我们的方法大大提高了推理性能，并且对错误表现出鲁棒性。代码将公开提供。

Apr, 2024

自主链式思维对于面向开放域多跳推理的大型语言模型

在这篇文章中，我们提出了自主启发式链式思考 (SP-CoT) 自动化框架，用于大规模生成高质量的多跳推理数据集并通过上下文学习实现自主启发式推理，实验证明 SP-CoT 在大规模和小规模语言模型上的性能均显著优于前沿方法，并能在中间步骤中召回约 50% 的中间答案。

Oct, 2023