问题分解提高模型生成推理的可信度

Jul, 2023

问题分解提高模型生成推理的可信度

Question Decomposition Improves the Faithfulness of Model-Generated Reasoning

Ansh Radhakrishnan, Karina Nguyen, Anna Chen, Carol Chen, Carson Denison...

TL;DR通过将问题分解为子问题，强迫模型在不同的上下文中回答简单的子问题，可以显著提高模型生成推理的可靠性，并在一定程度上提升效能，从而有望验证 LLM 行为的正确性和安全性。

Abstract

As large language models (LLMs) perform more difficult tasks, it becomes harder to verify the correctness and safety of their behavior. One approach to help with this issue is to prompt LLMs to externalize their reasoni

large language models reasoning chain-of-thought decomposition-based methods faithfulness

发现论文，激发创造

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023

链条思维推理中的忠实性测量

在大型语言模型中，通过分析模型预测的变化，研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响，但随着模型规模的增大，模型对大多数任务的推理越来越不可信，因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。

Jul, 2023

通过级联分解的 CoTs 蒸馏提升学生的推理泛化能力

大语言模型通过教师 - 学生学习实现对较小模型的推理增强，但传统方法在领域内推理表现优秀的同时，在跨领域任务中效果较差。本文通过将传统的单步学习过程分解为两个级联学习步骤，提出了级联分解 Chain-of-Thoughts 教师 - 学生学习（CasCoD）方法，通过去除预设答案并将问题与基本原理连接为输入，确保学生模型着重学习推理原理而不受干扰，从而提高推理泛化能力。广泛实验证明 CasCoD 在领域内和跨领域基准推理数据集上的有效性。

May, 2024

小语言模型微调以协调更大的语言模型，提升复杂推理

引入 DaSLaM，使用分解生成器将复杂问题分解为需要更少推理步骤的子问题，由求解器回答。我们的方法在多个不同推理数据集上进行评估，表明 1750 亿参数 LM（text-davinci-003）可以产生与规模更大的 GPT-4 相比具有竞争力甚至更好的性能。

Oct, 2023

通过语义分解将大型语言模型的多步推理能力浓缩为更小的模型

本研究提出对大型语言模型进行知识蒸馏的方法，利用链式思考等分步推理技术来促进推理能力并提高模型性能，通过分解、训练和求解等步骤实现问题的分解和求解，比链式思考方法性能更佳，可广泛应用于数学问题等多场景中。

Dec, 2022

大型语言模型中忠实思维链路推理的困难性

大语言模型（LLM）在关键领域，如医疗保健中得到越来越多的应用，为了确保这些模型生成的链式思维（CoT）推理能够忠实地捕捉其基本行为，我们探索了三种常用方法 —— 上下文学习、微调和激活编辑 —— 来指导 LLM 的行为，以提高 CoT 推理的准确性，然而我们的实证分析表明：这些方法在提高 CoT 推理的准确性方面取得的成果有限，只在受控情境中略有性能提升，激活编辑几乎没有成功，而微调和上下文学习的改进效果仅在部分推理和真实问答评估中表现出来，总结来说，我们的工作强调了从 LLMs 中获取准确 CoT 推理的困难性，提示当前的方法可能无法解决这一复杂挑战。

Jun, 2024

走向忠实的思维链条：大型语言模型正在架设推理桥梁

大型语言模型（LLMs）存在严重的不忠实的思维链 (CoT) 问题。本文首先从 CoT 步骤的粒度研究 CoT 忠实性问题，确定了集中式推理和分布式推理两种推理范式，并发现它们与忠实性的关系。随后，我们对环境、CoT 和答案之间的因果关系进行了联合分析。结果证明，当 LLM 预测答案时，它可以从上下文中回忆起 CoT 中缺失的正确信息，导致不忠实的问题。最后，我们提出了推理桥接方法来缓解这个问题，其中我们使用归因方法来作为 CoT 生成的提示并根据其语义一致性和归因分数过滤噪声 CoTs。大量实验证明我们的方法有效地减轻了不忠实的 CoT 问题。

May, 2024

基于知识驱动的协同训练：探索 LLMs 中的忠实推理与知识密集型问答

通过与外部知识的交互，我们提出了一个名为知识驱动的思路连贯（KD-CoT）的框架，以验证和修改语言模型的推理过程，以缓解幻觉和错误传播，尤其在回答知识密集型任务时。

Aug, 2023

回答知识密集型复杂问题的概率思维推理

大型语言模型（LLMs）能够用链式思维推理回答知识密集型复杂问题，但当模型的参数中缺少所需的知识或不是最新的时，它们往往会产生错误的推理步骤。本文提出一种新方法：概率思维树推理（ProbTree）。在开放领域的情境下，我们利用外部知识检索加强链式推理，通过解决从叶节点到根节点的问题，考虑问题分解和回答的置信度，在推理过程中消除了负面检索问题，并借助层次结构对非叶节点进行全局推理，从而弥补了局部错误。实验证明，我们的方法在三个复杂问答数据集上显著优于最先进方法，证明了概率思维树推理的有效性。

Nov, 2023

一个问题分解单元就足够了吗？

研究者们探讨了一种新的方法通过人在内的 NLP 研究，在不建立新模型的情况下，通过将数据分解为模型更易于回答的一系列简单问题来提高模型性能，证明了这种方法的可行性，可以作为建立大型语言模型的替代方案。

May, 2022