大型语言模型的自主树搜索能力

Oct, 2023

Autonomous Tree-search Ability of Large Language Models

Zheyu Zhang, Zhuorui Ye, Yikang Shen, Chuang Gan

TL;DR大型语言模型在高级提示技术方面具有出色的推理能力，但在需要探索、战略前瞻和序贯决策的任务上存在不足。最近的研究通过利用外部程序定义搜索逻辑，使 LLMs 能够执行被动树搜索以解决更具挑战性的推理任务。我们提出了一种名为 LLM 的自主树搜索能力的新概念，它可以自动生成包含正确答案的搜索轨迹的响应。在 4 个益智游戏上的实验表明，我们的方法可以取得巨大的改进。与先前的方法相比，ATS-BFS 方法在准确性上提高了 33％，而 GPT API 成本降低了 65.6% 或 47.7%。此外，我们使用 ATS 提示方法收集数据并对 LLaMA 进行微调，在 LLaMA2-7B 和 LLaMA2-13B 上相对于 CoT-tuned LLaMAs 提高了 40.6% 和 38.5%。

Abstract

large language models have excelled in remarkable reasoning capabilities with advanced prompting techniques, but they fall short on tasks that require exploration, strategic foresight, and sequential decision-making

large language models tree-search reasoning tasks sequential decision-making autonomous tree-search ability

发现论文，激发创造

语言代理树搜索在语言模型中统一了推理、行为和规划

LATS 是一种将大型语言模型（LLMs）能力融合于规划、行动和推理的通用框架，具备外部反馈的环境、超越现有技术限制的思考和适应性的问题解决机制，实现了在各种领域中的推理和行动的应用性。

Oct, 2023

导航迷宫：评估和提高 LLMs 处理搜索问题的能力

最近，大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是，它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题，我们引入了一个名为 SearchBench 的新基准测试，其中包含 11 种独特的搜索问题类型，每种问题类型都配备了自动化流程来生成任意数量的实例，并分析 LLM 生成解决方案的可行性、正确性和最优性。我们发现，即使是最先进的 LLM 也无法完全以文本方式解决这些问题，例如 GPT4 只解决了 1.4% 的问题。SearchBench 的问题要求考虑到多个解决路径以及回溯，这对自回归模型构成了重大挑战。指导 LLM 生成解决问题的代码会有所帮助，但是仅有轻微的改进，例如 GPT4 的表现提升到了 11.7%。在这项工作中，我们展示了利用 A * 算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时，它的潜力得到了充分展现，将 GPT-4 的表现提升到了 57% 以上。

Jun, 2024

类阿尔法零树搜索可引导大规模语言模型的解码和训练

借鉴 AlphaZero 的树搜索框架，通过学习价值函数来引导大型语言模型（LLMs）的解码能力，并在推理和训练中进行译码指导，有效地提升推理能力、规划和强化学习任务的对齐。

Sep, 2023

语言模型代理的树搜索

我们提出了一种推理时间搜索算法，用于在交互式网络环境中使语言模型代理能够进行探索和多步规划，实验证明搜索对于网络代理的有效性，并且在测试时间计算方面的性能随着增加而提高。

Jul, 2024

思维的提升：利用大型语言模型进行试错问题解决

通过迭代地探索和自我评估许多思维树以获得试错推理经验集，我们提出了一种用于 LLMs 问题解决的自动提示框架 BoT，它将作为一种新形式的提示来解决复杂的问题。实验证明，BoT 在解决复杂数学问题时，与其他先进的提示方法相比，可以达到更高或相当的问题解决率。

Feb, 2024

LiteSearch: 高效的 LLM 树搜索

通过考虑搜索进展和价值网络的引导，本研究介绍了一种新颖的有引导的树搜索算法，用于在可接受的计算成本内提高性能。实验结果显示，该方法不仅具有竞争力的性能，而且相对于基准方法而言计算成本显著降低。

Jun, 2024

思维算法：增强大型语言模型中的想法探索

我们提出了《Algorithm of Thoughts》，这是一种新的通过算法推动大型语言模型的算法推理路径的策略，以在上下文学习中扩展其思路探索，并超越了早期单查询方法和最近的多查询策略。

Aug, 2023

思维之树：利用大型语言模型进行有意识的问题解决

通过 Tree of Thoughts (ToT) 框架，可以弥补语言模型在考虑多种不同推理路径时的局限性，进而提高语言模型在需要问题解决的任务中的表现。实验表明，使用 ToT 的方法大大提高了语言模型在三个需要非平凡计划或搜索的任务的解决能力：24 点游戏、创意写作和小型填字游戏。

May, 2023

回答知识密集型复杂问题的概率思维推理

大型语言模型（LLMs）能够用链式思维推理回答知识密集型复杂问题，但当模型的参数中缺少所需的知识或不是最新的时，它们往往会产生错误的推理步骤。本文提出一种新方法：概率思维树推理（ProbTree）。在开放领域的情境下，我们利用外部知识检索加强链式推理，通过解决从叶节点到根节点的问题，考虑问题分解和回答的置信度，在推理过程中消除了负面检索问题，并借助层次结构对非叶节点进行全局推理，从而弥补了局部错误。实验证明，我们的方法在三个复杂问答数据集上显著优于最先进方法，证明了概率思维树推理的有效性。

Nov, 2023

大型语言模型指导下的思维树

本文提出了 Tree-of-Thought (ToT) 框架，它通过试错的思路来改进自回归大语言模型的问题解决能力。通过增加提示、检查、记忆和控制等模块来实现 ToT 系统。为了验证该技术的有效性，我们基于 ToT 设计了解决数独难题的求解器，实验结果表明，ToT 框架能够显著提高数独难题的成功率。

May, 2023