忠实的串联思考推理

Jan, 2023

Faithful Chain-of-Thought Reasoning

Qing Lyu, Shreya Havaldar, Adam Stein, Li Zhang, Delip Rao...

TL;DR提出Faithful CoT框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用LM和确定性求解器分别实现。在10个推理数据集上进行比较并展示Faithful CoT框架的优越性。

Abstract

While Chain-of-Thought (CoT) prompting boosts Language Models' (LM) performance on a gamut of complex reasoning tasks, the generated reasoning chain does not necessarily reflect how the model arrives at the answer (aka. faithfulness). We propose →

发现论文，激发创造

走向理解思路链提示：对重要性的经验研究

本论文研究了Chain-of-Thought提示对大型语言模型的多步推理能力的影响，发现即使使用无效的推理步骤，其提示也能达到80-90%的性能，并探究了其他理性方面的影响。

Dec, 2022

使用链式知识提示提升语言模型推理能力

引入了一种新的Chain-of-Knowledge(CoK)提示方法，旨在引导强大的语言模型（LLMs）生成显式的知识证明作为结构三元组，从而改进Commonsense、事实、符号和算术推理任务的性能，并引入F^2-Verification方法估计链的可靠性

Jun, 2023

问题分解提高模型生成推理的可信度

通过将问题分解为子问题，强迫模型在不同的上下文中回答简单的子问题，可以显著提高模型生成推理的可靠性，并在一定程度上提升效能，从而有望验证LLM行为的正确性和安全性。

Jul, 2023

链条思维推理中的忠实性测量

在大型语言模型中，通过分析模型预测的变化，研究发现Chain-of-Thought推理在某些任务中对答案预测的条件具有较大影响，但随着模型规模的增大，模型对大多数任务的推理越来越不可信，因此建议在选择模型规模和任务时谨慎使用Chain-of-Thought推理。

Jul, 2023

无需提示的逻辑链推理

大规模语言模型的推理能力可通过修改解码过程有效地引出连续推理路径，而不需要手动设计提示技术，这种具备内在推理能力的解码方法优于传统贪婪解码方式。

Feb, 2024

ChainLM: 通过改进思维连贯性促进大型语言模型的能力

Chain-of-Thought提示可以增强大型语言模型（LLMs）的推理能力，现有的CoT综合方法针对简单推理任务，导致CoT提示的质量低且不一致。为了应对这一挑战，我们进行了CoT提示的实证研究并引入了CoTGenius，一个用于自动生成优质CoT提示的新框架。我们进一步采用CoTGenius创建了一个广泛的CoT数据集，并在该数据集上对Llama 2-Chat 7B和13B模型进行了微调，得到了ChainLM模型。为了解决推理步骤中的累积误差问题，我们提出了一种步骤级辩论方法，其中多个辩论者讨论每个推理步骤，得出正确答案。大量实验证明，与现有模型相比，我们的ChainLM模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外，我们对CoTGenius中的数据类别对模型性能的影响进行了深入分析。我们在此https URL上发布了我们的数据集和代码。

Mar, 2024

通过符号化推理保持逻辑的准确性

提出了一种基于大型语言模型的新型符号化思维链(SymbCoT)框架，通过将符号表达和逻辑规则与语言模型集成，以增强其逻辑推理能力，并在5个标准数据集上通过深入评估展示了显著的性能提升。

May, 2024

走向忠实的思维链条：大型语言模型正在架设推理桥梁

大型语言模型（LLMs）存在严重的不忠实的思维链 (CoT) 问题。本文首先从 CoT 步骤的粒度研究 CoT 忠实性问题，确定了集中式推理和分布式推理两种推理范式，并发现它们与忠实性的关系。随后，我们对环境、CoT 和答案之间的因果关系进行了联合分析。结果证明，当 LLM 预测答案时，它可以从上下文中回忆起 CoT 中缺失的正确信息，导致不忠实的问题。最后，我们提出了推理桥接方法来缓解这个问题，其中我们使用归因方法来作为 CoT 生成的提示并根据其语义一致性和归因分数过滤噪声 CoTs。大量实验证明我们的方法有效地减轻了不忠实的 CoT 问题。

May, 2024

打破链条：大型语言模型能成为捷径推理器

通过在语言模型中引入人类类似的启发式和捷径策略并开发零样本提示策略，以优化Chain-of-Thought推理，同时引入ShortcutQA数据集用于评估和提升人工智能的推理效率。

Jun, 2024

大型语言模型中忠实思维链路推理的困难性

大语言模型（LLM）在关键领域，如医疗保健中得到越来越多的应用，为了确保这些模型生成的链式思维（CoT）推理能够忠实地捕捉其基本行为，我们探索了三种常用方法——上下文学习、微调和激活编辑——来指导LLM的行为，以提高CoT推理的准确性，然而我们的实证分析表明：这些方法在提高CoT推理的准确性方面取得的成果有限，只在受控情境中略有性能提升，激活编辑几乎没有成功，而微调和上下文学习的改进效果仅在部分推理和真实问答评估中表现出来，总结来说，我们的工作强调了从LLMs中获取准确CoT推理的困难性，提示当前的方法可能无法解决这一复杂挑战。

Jun, 2024