走向忠实的思维链条：大型语言模型正在架设推理桥梁

May, 2024

走向忠实的思维链条：大型语言模型正在架设推理桥梁

Towards Faithful Chain-of-Thought: Large Language Models are Bridging Reasoners

Jiachun Li, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao

TL;DR大型语言模型（LLMs）存在严重的不忠实的思维链 (CoT) 问题。本文首先从 CoT 步骤的粒度研究 CoT 忠实性问题，确定了集中式推理和分布式推理两种推理范式，并发现它们与忠实性的关系。随后，我们对环境、CoT 和答案之间的因果关系进行了联合分析。结果证明，当 LLM 预测答案时，它可以从上下文中回忆起 CoT 中缺失的正确信息，导致不忠实的问题。最后，我们提出了推理桥接方法来缓解这个问题，其中我们使用归因方法来作为 CoT 生成的提示并根据其语义一致性和归因分数过滤噪声 CoTs。大量实验证明我们的方法有效地减轻了不忠实的 CoT 问题。

Abstract

large language models (LLMs) suffer from serious unfaithful chain-of-thought (CoT) issues. Previous work attempts to measure and explain it but lacks in-depth analysis within CoTs and does not consider the intera

large language models chain-of-thought reasoning paradigms causal relevance inferential bridging method

发现论文，激发创造

链条思维推理中的忠实性测量

在大型语言模型中，通过分析模型预测的变化，研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响，但随着模型规模的增大，模型对大多数任务的推理越来越不可信，因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。

Jul, 2023

大型语言模型中忠实思维链路推理的困难性

大语言模型（LLM）在关键领域，如医疗保健中得到越来越多的应用，为了确保这些模型生成的链式思维（CoT）推理能够忠实地捕捉其基本行为，我们探索了三种常用方法 —— 上下文学习、微调和激活编辑 —— 来指导 LLM 的行为，以提高 CoT 推理的准确性，然而我们的实证分析表明：这些方法在提高 CoT 推理的准确性方面取得的成果有限，只在受控情境中略有性能提升，激活编辑几乎没有成功，而微调和上下文学习的改进效果仅在部分推理和真实问答评估中表现出来，总结来说，我们的工作强调了从 LLMs 中获取准确 CoT 推理的困难性，提示当前的方法可能无法解决这一复杂挑战。

Jun, 2024

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

串联思维不忠诚的伪装准确性

理解链状思维生成在大型语言模型内部计算中的程度对于决定是否信任语言模型的输出至关重要。在评估模型大小与忠实度的关系时，我们发现存在着一种扩大然后逆向缩小的关系，而 130 亿参数模型比其大小范围在 8.1 亿到 1750 亿参数的模型表现出更高的忠实度。然而，我们还发现仅仅改变提示中答案选择的顺序就能将该度量缩小 73 百分点。该忠实度度量与准确性也高度相关（$R^2=0.91$），这对于评估忠实度的有效性产生了疑虑。

Feb, 2024

带思维链的 LLMs 是非因果推理者

该研究探讨了大型语言模型中思维链（CoT）在推理中的作用，通过因果分析发现模型与人类推理过程之间存在差异，并揭示了模型中影响因果结构的因素。

Feb, 2024

语言模型中忠实与不忠实推理的分离

大型语言模型（LLMs）在输出答案之前生成思维链推理文本可以提高其在下游任务中的性能。我们的研究调查了 LLMs 在思维链中出现错误时如何还原并最终得出正确答案，我们发现存在思维链不忠实的证据，但我们也找到了许多明确的忠实错误还原行为。我们确定了影响 LLM 还原行为的因素：LLMs 在明显的错误和能提供更多正确答案证据的情境中更频繁地还原。然而，不忠实的还原行为则表现相反，在更困难的错误位置更频繁地发生。我们的研究结果显示，驱动忠实和不忠实错误还原的机制是不同的，这对 LLM 的推理是一个统一、连贯过程的观点提出了挑战。

May, 2024

语言模型并不总是说他们想的：链状思维提示中的不忠实解释

本研究发现 Large Language Models 的 Chain-of-Thought Reasoning （思维的串联过程）能够提供合理的解释，但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识，这可能导致人们过度信任 LLMs 的预测结果，因此有必要针对模型解释的忠实度进行有针对性的评估和改进，特别是在社会偏见问题方面。

May, 2023

使用知识图谱直接评估多跳推理中的思路一致性

大型语言模型（LLMs）在生成连贯思路解释时展现出强大的推理能力，然而，之前的研究仅关注于回答的准确性，忽略了生成的连贯思路的正确性。本文通过利用知识图谱（KGs）深入探讨 LLMs 在多跳问题回答中的连贯思路推理能力。我们提出了一种新颖的区分性和生成性连贯思路评估范式，用于评估 LLMs 关于推理的知识和生成连贯思路的准确性。通过在两个多跳问题回答数据集上对 5 个不同家族的 LLMs 进行的实验证明，LLMs 具有足够的知识进行推理，然而，LLMs 生成的连贯思路的准确性与回答的准确性存在显著差异，表明它们经常通过错误的推理方法得出正确的答案。

Feb, 2024

逐步思考的方式：链状思维推理的机械性理解

通过对大型语言模型的内部机制进行机械性探索，我们发现大型语言模型在连续思考生成上部署多个并行路径，产生了顺序答案，并观察到模型中的功能分层差异，这是对连续思考推理进行机械性研究的首次尝试。

Feb, 2024

让推理有意义：衡量和提升思考推理的可靠性

通过对十二个大型语言模型进行因果中介分析，本文发现大型语言模型在生成最终答案时并不可靠地使用中间推理步骤。为了解决这个问题，我们引入了 FRODO 框架，该框架通过使用隐式因果奖励函数生成正确的推理步骤，以及通过因果和对抗优化目标忠实地进行推理。实验证明，FRODO 显著优于其他四个基线方法，提高了推理语言模型的鲁棒性和泛化能力，在分布外测试集上表现更好。最后，我们发现 FRODO 的解释对最终答案的预测更加可靠。

Feb, 2024