问题分解提高模型生成推理的可信度
提出 Faithful CoT 框架以实现准确性和真实性的协同作用,通过将推理任务分解为翻译和问题求解两个阶段,使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。
Jan, 2023
在大型语言模型中,通过分析模型预测的变化,研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响,但随着模型规模的增大,模型对大多数任务的推理越来越不可信,因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。
Jul, 2023
大语言模型通过教师 - 学生学习实现对较小模型的推理增强,但传统方法在领域内推理表现优秀的同时,在跨领域任务中效果较差。本文通过将传统的单步学习过程分解为两个级联学习步骤,提出了级联分解 Chain-of-Thoughts 教师 - 学生学习(CasCoD)方法,通过去除预设答案并将问题与基本原理连接为输入,确保学生模型着重学习推理原理而不受干扰,从而提高推理泛化能力。广泛实验证明 CasCoD 在领域内和跨领域基准推理数据集上的有效性。
May, 2024
引入 DaSLaM,使用分解生成器将复杂问题分解为需要更少推理步骤的子问题,由求解器回答。我们的方法在多个不同推理数据集上进行评估,表明 1750 亿参数 LM(text-davinci-003)可以产生与规模更大的 GPT-4 相比具有竞争力甚至更好的性能。
Oct, 2023
本研究提出对大型语言模型进行知识蒸馏的方法,利用链式思考等分步推理技术来促进推理能力并提高模型性能,通过分解、训练和求解等步骤实现问题的分解和求解,比链式思考方法性能更佳,可广泛应用于数学问题等多场景中。
Dec, 2022
大语言模型(LLM)在关键领域,如医疗保健中得到越来越多的应用,为了确保这些模型生成的链式思维(CoT)推理能够忠实地捕捉其基本行为,我们探索了三种常用方法 —— 上下文学习、微调和激活编辑 —— 来指导 LLM 的行为,以提高 CoT 推理的准确性,然而我们的实证分析表明:这些方法在提高 CoT 推理的准确性方面取得的成果有限,只在受控情境中略有性能提升,激活编辑几乎没有成功,而微调和上下文学习的改进效果仅在部分推理和真实问答评估中表现出来,总结来说,我们的工作强调了从 LLMs 中获取准确 CoT 推理的困难性,提示当前的方法可能无法解决这一复杂挑战。
Jun, 2024
大型语言模型(LLMs)存在严重的不忠实的思维链 (CoT) 问题。本文首先从 CoT 步骤的粒度研究 CoT 忠实性问题,确定了集中式推理和分布式推理两种推理范式,并发现它们与忠实性的关系。随后,我们对环境、CoT 和答案之间的因果关系进行了联合分析。结果证明,当 LLM 预测答案时,它可以从上下文中回忆起 CoT 中缺失的正确信息,导致不忠实的问题。最后,我们提出了推理桥接方法来缓解这个问题,其中我们使用归因方法来作为 CoT 生成的提示并根据其语义一致性和归因分数过滤噪声 CoTs。大量实验证明我们的方法有效地减轻了不忠实的 CoT 问题。
May, 2024
通过与外部知识的交互,我们提出了一个名为知识驱动的思路连贯(KD-CoT)的框架,以验证和修改语言模型的推理过程,以缓解幻觉和错误传播,尤其在回答知识密集型任务时。
Aug, 2023
大型语言模型(LLMs)能够用链式思维推理回答知识密集型复杂问题,但当模型的参数中缺少所需的知识或不是最新的时,它们往往会产生错误的推理步骤。本文提出一种新方法:概率思维树推理(ProbTree)。在开放领域的情境下,我们利用外部知识检索加强链式推理,通过解决从叶节点到根节点的问题,考虑问题分解和回答的置信度,在推理过程中消除了负面检索问题,并借助层次结构对非叶节点进行全局推理,从而弥补了局部错误。实验证明,我们的方法在三个复杂问答数据集上显著优于最先进方法,证明了概率思维树推理的有效性。
Nov, 2023
研究者们探讨了一种新的方法通过人在内的 NLP 研究,在不建立新模型的情况下,通过将数据分解为模型更易于回答的一系列简单问题来提高模型性能,证明了这种方法的可行性,可以作为建立大型语言模型的替代方案。
May, 2022