大型语言模型中的后向推理用于验证
通过对十二个大型语言模型进行因果中介分析,本文发现大型语言模型在生成最终答案时并不可靠地使用中间推理步骤。为了解决这个问题,我们引入了 FRODO 框架,该框架通过使用隐式因果奖励函数生成正确的推理步骤,以及通过因果和对抗优化目标忠实地进行推理。实验证明,FRODO 显著优于其他四个基线方法,提高了推理语言模型的鲁棒性和泛化能力,在分布外测试集上表现更好。最后,我们发现 FRODO 的解释对最终答案的预测更加可靠。
Feb, 2024
本文研究倒向推理任务在数学问题中的应用,并提出了三种新技术以及一种基于贝叶斯公式的集成方法,这些方法显著提高了语言模型在倒向推理任务上的性能。
Oct, 2023
大型语言模型(LLMs)能够用链式思维推理回答知识密集型复杂问题,但当模型的参数中缺少所需的知识或不是最新的时,它们往往会产生错误的推理步骤。本文提出一种新方法:概率思维树推理(ProbTree)。在开放领域的情境下,我们利用外部知识检索加强链式推理,通过解决从叶节点到根节点的问题,考虑问题分解和回答的置信度,在推理过程中消除了负面检索问题,并借助层次结构对非叶节点进行全局推理,从而弥补了局部错误。实验证明,我们的方法在三个复杂问答数据集上显著优于最先进方法,证明了概率思维树推理的有效性。
Nov, 2023
提出 Faithful CoT 框架以实现准确性和真实性的协同作用,通过将推理任务分解为翻译和问题求解两个阶段,使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。
Jan, 2023
提出了一种名为自验证的方法,该方法使用推理链的结论作为条件建立新的样本,并要求大型语言模型重新预测原始条件,从而降低了多任务精度误差。经过大量实验验证,此方法可以使大型语言模型避免出现不正确的推理链干扰,并实现具有竞争力的推理性能,可用于算术和逻辑推理数据集的有限次学习。
Dec, 2022
通过引入符号性的自上而下求解器,与大型语言模型的集成,SymBa 在多步推理基准测试中(ProofWriter,Birds-Electricity,GSM8k,CLUTRR-TF,ECtHR Article 6)相对于基线算法实现了性能、证明准确性和效率的显著提升。
Feb, 2024
本文提出了一种新方法 RCoT,通过自动检测和纠正 LLMs 生成的解决方案中的事实不一致性,以 fine-grained feedback 指导 LLMs 修改解决方案,从而改进 LLMs 在算术推理任务中的推理能力。实验结果表明,RCoT 相对于标准的 CoT 在七个算术数据集上有一致的改进。此外,发现手动编写的精细反馈可以显着提高 LLMs 的推理能力,并鼓励社区进一步探索 fine-grained feedback 生成方法。
May, 2023
最近大语言模型(LLM),特别是链式思维(CoT)提示的发明,使得解决推理问题成为可能。本文探讨 LLMs 是否具备识别自身错误的能力,无需外部资源。具体而言,我们研究它们是否能够用于识别逐步推理中的个别错误。为此,我们提出了一种零 - shot 验证方案来识别这些错误。然后,我们使用这个验证方案来提高问题回答的性能,通过对不同生成答案进行加权投票。我们在三个数学数据集 - GSM8K,MathQA 和 MATH 上测试了该方法,发现它成功地识别错误,并进而提高了最终的预测性能。
Aug, 2023
通过对推理链和性能的关系的研究,我们引入了一个专门探索推理链与各个领域不同推理任务性能之间关系的基准 R2PE,该基准旨在通过推理步骤来衡量大型语言模型的最终输出的错误性。我们提出了一种过程识别得分(PDS)框架,充分利用多个推理链的信息,相比答案检查基准线,平均提高了 R2PE 下所有 45 个子集的 F1 得分约 5.1%。我们进一步展示了 PDS 在提升开放领域问答准确性方面的功效。
Feb, 2024
通过检查中间层解码的潜在预测的一致性,我们提出了内部一致性作为模型信心的度量,这有效地区分了正确和错误的推理路径,并通过加权具有高内部一致性的推理路径来调整链式推理,从而显著提高了推理性能。我们的结果表明,内部表示的使用可以将 LLMs 自我评估的潜力展现出来。
May, 2024