大型语言模型为何能生成准确的思路连贯？

Oct, 2023

大型语言模型为何能生成准确的思路连贯？

Why Can Large Language Models Generate Correct Chain-of-Thoughts?

Rasul Tutunov, Antoine Grosnit, Juliusz Ziomek, Jun Wang, Haitham Bou-Ammar

TL;DR本文研究了大型语言模型（LLMs）的能力，特别关注于推进链式思维提示的理论理解。我们探究了如何有效诱导 LLMs 生成连贯的思维链条。为实现此目标，我们引入了一个适用于自然语言生成的两级分层图模型。在这一框架下，我们建立了一个具有吸引力的几何收敛率，用于衡量 LLMs 生成的思维链条与真实语言起源的思维链条之间的相似度。我们的发现为 LLMs 能够产生正确的思维序列提供了理论上的证明（潜在地）解释了在需要推理技能的任务中性能提升的原因。

Abstract

This paper delves into the capabilities of large language models (LLMs), specifically focusing on advancing the theoretical comprehension of chain-of-thought prompting. We investigate how LLMs can be effectively

large language models chain-of-thought prompting graphical model natural language generation reasoning skills

发现论文，激发创造

链式思考引导大型语言模型推理

通过 chain of thought prompting 方法，在大型语言模型中提供少量的思维链示例可以显著提高其在各类数学、常识和符号推理任务上的性能，甚至超过 fine-tuned GPT-3。

Jan, 2022

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在 4 种不同类型的推理任务上评估了我们的方法，涵盖了共计 9 个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在 9 个数据集中的 6 个数据集中，优于最佳的 N 个采样方法。

Apr, 2024

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

思维算法：增强大型语言模型中的想法探索

我们提出了《Algorithm of Thoughts》，这是一种新的通过算法推动大型语言模型的算法推理路径的策略，以在上下文学习中扩展其思路探索，并超越了早期单查询方法和最近的多查询策略。

Aug, 2023

大型语言模型能够学习时间推理

我们提出了一种新的基于文本的时间推理模型 TempGraph-LLM，通过将上下文翻译成时间图，教导大型语言模型 (LLMs) 学习时间概念。我们证明了在其他任务上的预训练对 LLMs 的效益，并通过思路链的引导和特殊数据增强引导 LLMs 进行符号推理，观察到符号推理带来更一致可靠的结果。

Jan, 2024

思维链中枢：评估大型语言模型推理性能的持续努力

提出了一个开源评估套件链式思维中心，用于评估大型语言模型在多步推理能力方面的性能，并针对一系列有挑战性的应用场景提供基准测试，目前的结果表明，模型规模与推理能力密切相关，需要更多开源社区的努力来构建更好的基础模型和探索 RLHF。

May, 2023

超越言辞：解读大型语言模型的数学框架

大语言模型领域缺乏描述、比较和改进的数学框架，因此我们提出了 Hex 框架，该框架可以清晰地描述大语言模型研究中的关键术语和概念，如幻觉、对齐、自我验证和思考链。该框架为表征大语言模型、识别其优势和劣势以及整合新发现提供了精确和一致的方法。我们利用 Hex 将思考链推理与思考链提示区分开，并确定了它们等价的条件。这一区分澄清了思考链提示背后的基本假设及其对使用它的方法（如自我验证和提示编程）的影响。我们的目标是为大语言模型提供形式化框架，以帮助研究人员和从业者探索生成型人工智能的新可能性。我们并不声称拥有终极解决方案，而是提供了一个开启新研究方向的工具。我们认为，我们的形式定义和结果对于推动如何构建安全、可靠、公正和健壮的生成型人工智能系统的讨论至关重要，尤其是在医疗保健和软件工程等领域。

Nov, 2023

基于心理学的思路链引导大型语言模型理解隐喻

本文使用思维导向提示将概率模型结构引入了大型语言模型的上下文学习中，以推断潜在变量并选择合适的隐喻释义，从而改进了模型的模仿能力。

Sep, 2022

知识增强大型语言模型的原则框架

这篇论文介绍了一个严格设计的框架，用于创建能够有效锚定知识并采用闭环推理过程的大型语言模型，以提升其进行深入分析的能力，同时解剖了该框架的组成部分对模型性能的贡献，从而为改进推理能力提供了理论保证。

Nov, 2023

小型语言模型是否能帮助大型语言模型更好地进行推理？：LM 引导下的思路链

我们引入了一种新颖的框架，LM-Guided CoT，它利用轻量级（即 <1B）语言模型（LM）指导黑盒大型（即> 10B）LM 在推理任务中的工作。具体而言，轻量级 LM 首先为每个输入实例生成理论依据，接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效，只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型，其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明，我们的方法在回答预测准确性方面优于所有基准方法。我们还发现，强化学习有助于模型生成更高质量的理论依据，并提高问答的性能。

Apr, 2024