语言模型中忠实与不忠实推理的分离

May, 2024

语言模型中忠实与不忠实推理的分离

Dissociation of Faithful and Unfaithful Reasoning in LLMs

Evelyn Yee, Alice Li, Chenyu Tang, Yeon Ho Jung, Ramamohan Paturi...

TL;DR大型语言模型（LLMs）在输出答案之前生成思维链推理文本可以提高其在下游任务中的性能。我们的研究调查了 LLMs 在思维链中出现错误时如何还原并最终得出正确答案，我们发现存在思维链不忠实的证据，但我们也找到了许多明确的忠实错误还原行为。我们确定了影响 LLM 还原行为的因素：LLMs 在明显的错误和能提供更多正确答案证据的情境中更频繁地还原。然而，不忠实的还原行为则表现相反，在更困难的错误位置更频繁地发生。我们的研究结果显示，驱动忠实和不忠实错误还原的机制是不同的，这对 LLM 的推理是一个统一、连贯过程的观点提出了挑战。

Abstract

large language models (LLMs) improve their performance in downstream tasks when they generate chain of thought reasoning text before producing an answer. Our research investigates how LLMs recover from errors in

large language models error recovery behaviors chain of thought faithful unfaithful

发现论文，激发创造

走向忠实的思维链条：大型语言模型正在架设推理桥梁

大型语言模型（LLMs）存在严重的不忠实的思维链 (CoT) 问题。本文首先从 CoT 步骤的粒度研究 CoT 忠实性问题，确定了集中式推理和分布式推理两种推理范式，并发现它们与忠实性的关系。随后，我们对环境、CoT 和答案之间的因果关系进行了联合分析。结果证明，当 LLM 预测答案时，它可以从上下文中回忆起 CoT 中缺失的正确信息，导致不忠实的问题。最后，我们提出了推理桥接方法来缓解这个问题，其中我们使用归因方法来作为 CoT 生成的提示并根据其语义一致性和归因分数过滤噪声 CoTs。大量实验证明我们的方法有效地减轻了不忠实的 CoT 问题。

May, 2024

链条思维推理中的忠实性测量

在大型语言模型中，通过分析模型预测的变化，研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响，但随着模型规模的增大，模型对大多数任务的推理越来越不可信，因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。

Jul, 2023

大型语言模型中忠实思维链路推理的困难性

大语言模型（LLM）在关键领域，如医疗保健中得到越来越多的应用，为了确保这些模型生成的链式思维（CoT）推理能够忠实地捕捉其基本行为，我们探索了三种常用方法 —— 上下文学习、微调和激活编辑 —— 来指导 LLM 的行为，以提高 CoT 推理的准确性，然而我们的实证分析表明：这些方法在提高 CoT 推理的准确性方面取得的成果有限，只在受控情境中略有性能提升，激活编辑几乎没有成功，而微调和上下文学习的改进效果仅在部分推理和真实问答评估中表现出来，总结来说，我们的工作强调了从 LLMs 中获取准确 CoT 推理的困难性，提示当前的方法可能无法解决这一复杂挑战。

Jun, 2024

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

让推理有意义：衡量和提升思考推理的可靠性

通过对十二个大型语言模型进行因果中介分析，本文发现大型语言模型在生成最终答案时并不可靠地使用中间推理步骤。为了解决这个问题，我们引入了 FRODO 框架，该框架通过使用隐式因果奖励函数生成正确的推理步骤，以及通过因果和对抗优化目标忠实地进行推理。实验证明，FRODO 显著优于其他四个基线方法，提高了推理语言模型的鲁棒性和泛化能力，在分布外测试集上表现更好。最后，我们发现 FRODO 的解释对最终答案的预测更加可靠。

Feb, 2024

带思维链的 LLMs 是非因果推理者

该研究探讨了大型语言模型中思维链（CoT）在推理中的作用，通过因果分析发现模型与人类推理过程之间存在差异，并揭示了模型中影响因果结构的因素。

Feb, 2024

串联思维不忠诚的伪装准确性

理解链状思维生成在大型语言模型内部计算中的程度对于决定是否信任语言模型的输出至关重要。在评估模型大小与忠实度的关系时，我们发现存在着一种扩大然后逆向缩小的关系，而 130 亿参数模型比其大小范围在 8.1 亿到 1750 亿参数的模型表现出更高的忠实度。然而，我们还发现仅仅改变提示中答案选择的顺序就能将该度量缩小 73 百分点。该忠实度度量与准确性也高度相关（$R^2=0.91$），这对于评估忠实度的有效性产生了疑虑。

Feb, 2024

利用大型语言模型进行忠实推理

通过串联使用微调语言模型进行多步推理的方法，可以解决大型语言模型的单次调用限制，提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型，并生成可由用户检查的有效推理过程。

Aug, 2022

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在 4 种不同类型的推理任务上评估了我们的方法，涵盖了共计 9 个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在 9 个数据集中的 6 个数据集中，优于最佳的 N 个采样方法。

Apr, 2024

语言模型并不总是说他们想的：链状思维提示中的不忠实解释

本研究发现 Large Language Models 的 Chain-of-Thought Reasoning （思维的串联过程）能够提供合理的解释，但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识，这可能导致人们过度信任 LLMs 的预测结果，因此有必要针对模型解释的忠实度进行有针对性的评估和改进，特别是在社会偏见问题方面。

May, 2023