演绎搜索：链式思维推理的可推导理由解码

Jan, 2024

演绎搜索：链式思维推理的可推导理由解码

Deductive Beam Search: Decoding Deducible Rationale for Chain-of-Thought Reasoning

Tinghui Zhu, Kai Zhang, Jian Xie, Yu Su

TL;DR通过 Deductive Beam Search 的有机结合，我们的方法显著提高了不同规模的 Large Language Models 在算术、常识和符号等 3 个推理领域的性能，并证明其在检测多样且微妙推理错误以及对不同模型规模的鲁棒性方面的能力。

Abstract

Recent advancements have significantly augmented the reasoning capabilities of large language models (LLMs) through various methodologies, especially chain-of-thought (CoT) reasoning. However, previous methods fail to address →

large language models chain-of-thought reasoning deductive beam search reasoning errors step-wise beam search

发现论文，激发创造

链式推理演绎验证

我们提出了一个自然语言为基础的演绎推理格式，使语言模型能够生成明确的推理步骤，进一步增强推理步骤的严格性和可信性，并在此过程中提高复杂推理任务的正确性。

Jun, 2023

使用知识图谱直接评估多跳推理中的思路一致性

大型语言模型（LLMs）在生成连贯思路解释时展现出强大的推理能力，然而，之前的研究仅关注于回答的准确性，忽略了生成的连贯思路的正确性。本文通过利用知识图谱（KGs）深入探讨 LLMs 在多跳问题回答中的连贯思路推理能力。我们提出了一种新颖的区分性和生成性连贯思路评估范式，用于评估 LLMs 关于推理的知识和生成连贯思路的准确性。通过在两个多跳问题回答数据集上对 5 个不同家族的 LLMs 进行的实验证明，LLMs 具有足够的知识进行推理，然而，LLMs 生成的连贯思路的准确性与回答的准确性存在显著差异，表明它们经常通过错误的推理方法得出正确的答案。

Feb, 2024

我们能为错误答案检测逐步验证吗？

通过对推理链和性能的关系的研究，我们引入了一个专门探索推理链与各个领域不同推理任务性能之间关系的基准 R2PE，该基准旨在通过推理步骤来衡量大型语言模型的最终输出的错误性。我们提出了一种过程识别得分（PDS）框架，充分利用多个推理链的信息，相比答案检查基准线，平均提高了 R2PE 下所有 45 个子集的 F1 得分约 5.1％。我们进一步展示了 PDS 在提升开放领域问答准确性方面的功效。

Feb, 2024

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

基于知识驱动的协同训练：探索 LLMs 中的忠实推理与知识密集型问答

通过与外部知识的交互，我们提出了一个名为知识驱动的思路连贯（KD-CoT）的框架，以验证和修改语言模型的推理过程，以缓解幻觉和错误传播，尤其在回答知识密集型任务时。

Aug, 2023

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

走向忠实的思维链条：大型语言模型正在架设推理桥梁

大型语言模型（LLMs）存在严重的不忠实的思维链 (CoT) 问题。本文首先从 CoT 步骤的粒度研究 CoT 忠实性问题，确定了集中式推理和分布式推理两种推理范式，并发现它们与忠实性的关系。随后，我们对环境、CoT 和答案之间的因果关系进行了联合分析。结果证明，当 LLM 预测答案时，它可以从上下文中回忆起 CoT 中缺失的正确信息，导致不忠实的问题。最后，我们提出了推理桥接方法来缓解这个问题，其中我们使用归因方法来作为 CoT 生成的提示并根据其语义一致性和归因分数过滤噪声 CoTs。大量实验证明我们的方法有效地减轻了不忠实的 CoT 问题。

May, 2024

通过逻辑增强大型语言模型中的零射连续推理

利用逻辑链思维 (LogiCoT) 的神经符号框架，大规模语言模型提供了更强的零编码链式思维推理能力。实验证明了逻辑增强的推理范式在算术、常识、符号、因果推断和社会问题等多个领域的语言任务中的有效性。

Sep, 2023

利用大型语言模型进行忠实推理

通过串联使用微调语言模型进行多步推理的方法，可以解决大型语言模型的单次调用限制，提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型，并生成可由用户检查的有效推理过程。

Aug, 2022

通过符号化推理保持逻辑的准确性

提出了一种基于大型语言模型的新型符号化思维链 (SymbCoT) 框架，通过将符号表达和逻辑规则与语言模型集成，以增强其逻辑推理能力，并在 5 个标准数据集上通过深入评估展示了显著的性能提升。

May, 2024