演绎搜索:链式思维推理的可推导理由解码
大型语言模型(LLMs)在生成连贯思路解释时展现出强大的推理能力,然而,之前的研究仅关注于回答的准确性,忽略了生成的连贯思路的正确性。本文通过利用知识图谱(KGs)深入探讨 LLMs 在多跳问题回答中的连贯思路推理能力。我们提出了一种新颖的区分性和生成性连贯思路评估范式,用于评估 LLMs 关于推理的知识和生成连贯思路的准确性。通过在两个多跳问题回答数据集上对 5 个不同家族的 LLMs 进行的实验证明,LLMs 具有足够的知识进行推理,然而,LLMs 生成的连贯思路的准确性与回答的准确性存在显著差异,表明它们经常通过错误的推理方法得出正确的答案。
Feb, 2024
通过对推理链和性能的关系的研究,我们引入了一个专门探索推理链与各个领域不同推理任务性能之间关系的基准 R2PE,该基准旨在通过推理步骤来衡量大型语言模型的最终输出的错误性。我们提出了一种过程识别得分(PDS)框架,充分利用多个推理链的信息,相比答案检查基准线,平均提高了 R2PE 下所有 45 个子集的 F1 得分约 5.1%。我们进一步展示了 PDS 在提升开放领域问答准确性方面的功效。
Feb, 2024
提出 Faithful CoT 框架以实现准确性和真实性的协同作用,通过将推理任务分解为翻译和问题求解两个阶段,使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。
Jan, 2023
通过与外部知识的交互,我们提出了一个名为知识驱动的思路连贯(KD-CoT)的框架,以验证和修改语言模型的推理过程,以缓解幻觉和错误传播,尤其在回答知识密集型任务时。
Aug, 2023
该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架,使得答案推断可以更好地利用基于多模态信息的生成的理由,并取得了比先前最先进的 LLM(GPT-3.5)高 16 个百分点(75.17%-> 91.68%准确度)的性能,在 ScienceQA 基准测试中甚至超过了人类的表现。
Feb, 2023
大型语言模型(LLMs)存在严重的不忠实的思维链 (CoT) 问题。本文首先从 CoT 步骤的粒度研究 CoT 忠实性问题,确定了集中式推理和分布式推理两种推理范式,并发现它们与忠实性的关系。随后,我们对环境、CoT 和答案之间的因果关系进行了联合分析。结果证明,当 LLM 预测答案时,它可以从上下文中回忆起 CoT 中缺失的正确信息,导致不忠实的问题。最后,我们提出了推理桥接方法来缓解这个问题,其中我们使用归因方法来作为 CoT 生成的提示并根据其语义一致性和归因分数过滤噪声 CoTs。大量实验证明我们的方法有效地减轻了不忠实的 CoT 问题。
May, 2024
利用逻辑链思维 (LogiCoT) 的神经符号框架,大规模语言模型提供了更强的零编码链式思维推理能力。实验证明了逻辑增强的推理范式在算术、常识、符号、因果推断和社会问题等多个领域的语言任务中的有效性。
Sep, 2023
通过串联使用微调语言模型进行多步推理的方法,可以解决大型语言模型的单次调用限制,提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型,并生成可由用户检查的有效推理过程。
Aug, 2022
提出了一种基于大型语言模型的新型符号化思维链 (SymbCoT) 框架,通过将符号表达和逻辑规则与语言模型集成,以增强其逻辑推理能力,并在 5 个标准数据集上通过深入评估展示了显著的性能提升。
May, 2024