大型语言模型推理的分而治之
我们提出一种将问题分解为问题分解阶段和问题解决阶段的策略,并证明该策略能够优于单阶段解决方案。通过在结合问题解决 LLMs 的同时利用较小的问题分解模型,我们能够实现具有高效推理和局部适应性的推理。
Feb, 2024
通过将复杂的现实世界问题分解成图形,将每个问题表示为一个节点,并使用具有解决问题所需背景知识的父节点来研究大型语言模型(LLMs)如何利用知识进行推理。使用分层图形,我们量化了 LLMs 在较简单子问题与复杂问题上性能的前向差异和后向差异。此研究拓展了我们对 LLM 推理的理解,并提出了改进它们解决问题能力的方法。
Jun, 2024
大型语言模型(LLMs)能够用链式思维推理回答知识密集型复杂问题,但当模型的参数中缺少所需的知识或不是最新的时,它们往往会产生错误的推理步骤。本文提出一种新方法:概率思维树推理(ProbTree)。在开放领域的情境下,我们利用外部知识检索加强链式推理,通过解决从叶节点到根节点的问题,考虑问题分解和回答的置信度,在推理过程中消除了负面检索问题,并借助层次结构对非叶节点进行全局推理,从而弥补了局部错误。实验证明,我们的方法在三个复杂问答数据集上显著优于最先进方法,证明了概率思维树推理的有效性。
Nov, 2023
本文探讨了在体育领域中的先进大型语言模型与分析推理能力。我们的分析推理涉及了在 NBA 和 NFL 比赛中,大型语言模型计算每个队伍在一个季度中得分的任务。我们的主要发现有两个方面。首先,我们发现在我们使用的所有模型中,GPT-4 是最有效的,其次是 Claude-2.1,而 GPT-3.5、Gemini-Pro 和 Llama-2-70b 则落后。具体而言,我们比较了三种不同的提示技术和一种分而治之的方法,我们发现后者最有效。我们的分而治之方法将逐个拆解比赛数据为更小且更易处理的片段,分别解决每个片段,然后将它们聚合在一起。除了分而治之的方法,我们还探索了思维链(CoT)策略,该策略明显改善了某些模型,尤其是 GPT-4 和 Claude-2.1 的效果,它们的准确率显著提高。然而,对于 GPT-3.5 和 Gemini-Pro 等其他模型,思维链策略则几乎没有或甚至具有负面影响。其次,令我们惊讶的是,尽管在计算 NFL 季度得分方面表现出色,但大多数模型,包括 GPT-4,却在准确计算 NBA 季度总分方面遇到困难。这促使我们进一步研究影响分析推理任务复杂性的因素,并通过大量实验得出结论,即任务的复杂性取决于上下文长度、信息密度和相关信息的存在。我们的研究为分析推理任务的复杂性和未来大型语言模型的发展方向提供了有价值的见解。
Mar, 2024
我们引入了一种新颖的框架,LM-Guided CoT,它利用轻量级(即 <1B)语言模型(LM)指导黑盒大型(即> 10B)LM 在推理任务中的工作。具体而言,轻量级 LM 首先为每个输入实例生成理论依据,接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效,只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型,其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明,我们的方法在回答预测准确性方面优于所有基准方法。我们还发现,强化学习有助于模型生成更高质量的理论依据,并提高问答的性能。
Apr, 2024
通过 Multi-CoT 一致知识蒸馏 (MCC-KD) 方法,我们提出了一种提升大型语言模型的推理能力、实现多样性和一致性的方法,并验证其在数学推理和常识推理的基准测试中的优秀性能和鲁棒泛化能力。
Oct, 2023
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
本研究旨在探讨大型语言模型在处理复杂时间推理能力问题上的挑战,并提出了一种结合自然语言处理和逻辑推理的框架,证明了其在时间限制推理任务方面的有效性。
May, 2023