大型语言模型推理的分而治之

Jan, 2024

Divide and Conquer for Large Language Models Reasoning

Zijie Meng, Yan Zhang, Zhaopeng Feng, Yang Feng, Gaoang Wang...

TL;DR大型语言模型在处理多项选择题时，通过引入分治策略并使用先验知识推理和选择过滤等方法，能够显著提高推理能力，并在算术、常识和逻辑任务中获得显著改进。

Abstract

large language models (LLMs) have shown impressive performance in various reasoning benchmarks with the emergence of chain-of-thought (CoT

large language models reasoning benchmarks chain-of-thought divide and conquer multi-choice questions

发现论文，激发创造

用分治程序引导大型语言模型进行问题解决

建议使用分治程序来引导大型语言模型（LLM），以解决存在中间错误和欺骗内容的任务，可以提供更好的性能。

Feb, 2024

分而治之？您应该压缩 LLM 的哪个部分？

我们提出一种将问题分解为问题分解阶段和问题解决阶段的策略，并证明该策略能够优于单阶段解决方案。通过在结合问题解决 LLMs 的同时利用较小的问题分解模型，我们能够实现具有高效推理和局部适应性的推理。

Feb, 2024

探究大型语言模型如何利用内部知识进行复杂推理

通过将复杂的现实世界问题分解成图形，将每个问题表示为一个节点，并使用具有解决问题所需背景知识的父节点来研究大型语言模型（LLMs）如何利用知识进行推理。使用分层图形，我们量化了 LLMs 在较简单子问题与复杂问题上性能的前向差异和后向差异。此研究拓展了我们对 LLM 推理的理解，并提出了改进它们解决问题能力的方法。

Jun, 2024

回答知识密集型复杂问题的概率思维推理

大型语言模型（LLMs）能够用链式思维推理回答知识密集型复杂问题，但当模型的参数中缺少所需的知识或不是最新的时，它们往往会产生错误的推理步骤。本文提出一种新方法：概率思维树推理（ProbTree）。在开放领域的情境下，我们利用外部知识检索加强链式推理，通过解决从叶节点到根节点的问题，考虑问题分解和回答的置信度，在推理过程中消除了负面检索问题，并借助层次结构对非叶节点进行全局推理，从而弥补了局部错误。实验证明，我们的方法在三个复杂问答数据集上显著优于最先进方法，证明了概率思维树推理的有效性。

Nov, 2023

大型语言模型是否能进行分析推理？

本文探讨了在体育领域中的先进大型语言模型与分析推理能力。我们的分析推理涉及了在 NBA 和 NFL 比赛中，大型语言模型计算每个队伍在一个季度中得分的任务。我们的主要发现有两个方面。首先，我们发现在我们使用的所有模型中，GPT-4 是最有效的，其次是 Claude-2.1，而 GPT-3.5、Gemini-Pro 和 Llama-2-70b 则落后。具体而言，我们比较了三种不同的提示技术和一种分而治之的方法，我们发现后者最有效。我们的分而治之方法将逐个拆解比赛数据为更小且更易处理的片段，分别解决每个片段，然后将它们聚合在一起。除了分而治之的方法，我们还探索了思维链（CoT）策略，该策略明显改善了某些模型，尤其是 GPT-4 和 Claude-2.1 的效果，它们的准确率显著提高。然而，对于 GPT-3.5 和 Gemini-Pro 等其他模型，思维链策略则几乎没有或甚至具有负面影响。其次，令我们惊讶的是，尽管在计算 NFL 季度得分方面表现出色，但大多数模型，包括 GPT-4，却在准确计算 NBA 季度总分方面遇到困难。这促使我们进一步研究影响分析推理任务复杂性的因素，并通过大量实验得出结论，即任务的复杂性取决于上下文长度、信息密度和相关信息的存在。我们的研究为分析推理任务的复杂性和未来大型语言模型的发展方向提供了有价值的见解。

Mar, 2024

小型语言模型是否能帮助大型语言模型更好地进行推理？：LM 引导下的思路链

我们引入了一种新颖的框架，LM-Guided CoT，它利用轻量级（即 <1B）语言模型（LM）指导黑盒大型（即> 10B）LM 在推理任务中的工作。具体而言，轻量级 LM 首先为每个输入实例生成理论依据，接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效，只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型，其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明，我们的方法在回答预测准确性方面优于所有基准方法。我们还发现，强化学习有助于模型生成更高质量的理论依据，并提高问答的性能。

Apr, 2024

大规模语言模型对于超领域逻辑推理任务的系统评估

大型语言模型在逻辑推理任务中的泛化性和鲁棒性评估及改善的研究。

Oct, 2023

MCC-KD: 多 CoT 一致知识蒸馏

通过 Multi-CoT 一致知识蒸馏 (MCC-KD) 方法，我们提出了一种提升大型语言模型的推理能力、实现多样性和一致性的方法，并验证其在数学推理和常识推理的基准测试中的优秀性能和鲁棒泛化能力。

Oct, 2023

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

使用代码执行解锁大型语言模型的时间问答

本研究旨在探讨大型语言模型在处理复杂时间推理能力问题上的挑战，并提出了一种结合自然语言处理和逻辑推理的框架，证明了其在时间限制推理任务方面的有效性。

May, 2023