链式推理演绎验证

Jun, 2023

Deductive Verification of Chain-of-Thought Reasoning

Zhan Ling, Yunhao Fang, Xuanlin Li, Zhiao Huang, Mingu Lee...

TL;DR我们提出了一个自然语言为基础的演绎推理格式，使语言模型能够生成明确的推理步骤，进一步增强推理步骤的严格性和可信性，并在此过程中提高复杂推理任务的正确性。

Abstract

large language models (LLMs) significantly benefit from Chain-of-Thought (CoT) prompting in performing various reasoning tasks. While CoT allows models to produce more comprehensive reasoning processes, its emphasis on intermediate reasoning steps can inadvertently introduce hallucinat

large language models chain-of-thought prompting deductive reasoning self-verification natural program

发现论文，激发创造

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

大型语言模型的自动思维联想提示

本论文提出一种基于链式推理的自动提问方法 Auto-CoT，通过采样具有多样性的问题并生成推理链来构建演示，在十项公共基准推理任务中，Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。

Oct, 2022

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

LLM 是否是严格的逻辑推理者？通过对比逐步解码增强自然语言证明生成

通过引入先进的思维链接策略和分步证明生成对小规模语言模型进行微调，增强了逻辑推理能力，成功提升了语言模型完成复杂推理任务的效果。

Nov, 2023

通过思维树增强跨语言多步推理

本研究通过一种自洽的跨语言提示机制，提出了一种跨语言多步推理方法，可以在不同语言中实现多步推理路径，从而达到解决复杂推理任务的目的，并在实验评估中表现出比现有提示方法更优的性能。

Nov, 2023

通过逻辑增强大型语言模型中的零射连续推理

利用逻辑链思维 (LogiCoT) 的神经符号框架，大规模语言模型提供了更强的零编码链式思维推理能力。实验证明了逻辑增强的推理范式在算术、常识、符号、因果推断和社会问题等多个领域的语言任务中的有效性。

Sep, 2023

逐步思考的方式：链状思维推理的机械性理解

通过对大型语言模型的内部机制进行机械性探索，我们发现大型语言模型在连续思考生成上部署多个并行路径，产生了顺序答案，并观察到模型中的功能分层差异，这是对连续思考推理进行机械性研究的首次尝试。

Feb, 2024

验证和编辑：一种知识增强的思维链框架

本文提出了一种用于 CoT 提示的 Verify-and-Edit 框架，通过使用外部知识来编辑推理链以提高其准确性，改善了大语言模型中存在的缺陷，实现了在多个开放型问题回答任务中的准确度提升。

May, 2023

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在 4 种不同类型的推理任务上评估了我们的方法，涵盖了共计 9 个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在 9 个数据集中的 6 个数据集中，优于最佳的 N 个采样方法。

Apr, 2024

ChainLM: 通过改进思维连贯性促进大型语言模型的能力

Chain-of-Thought 提示可以增强大型语言模型（LLMs）的推理能力，现有的 CoT 综合方法针对简单推理任务，导致 CoT 提示的质量低且不一致。为了应对这一挑战，我们进行了 CoT 提示的实证研究并引入了 CoTGenius，一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集，并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调，得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题，我们提出了一种步骤级辩论方法，其中多个辩论者讨论每个推理步骤，得出正确答案。大量实验证明，与现有模型相比，我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外，我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。

Mar, 2024