LLM 规划中何时使用树搜索？取决于鉴别器

Feb, 2024

LLM 规划中何时使用树搜索？取决于鉴别器

When is Tree Search Useful for LLM Planning? It Depends on the Discriminator

Ziru Chen, Michael White, Raymond Mooney, Ali Payani, Yu Su...

TL;DR本文研究了大型语言模型在语言代理框架下如何通过生成器、鉴别器和规划方法解决多步骤问题。我们调查了两种先进的规划方法，即迭代修正和树搜索的实际效用。通过对文本到 SQL 解析和数学推理两个任务的实验发现：（1）先进的规划方法要求鉴别器的准确率至少为 90％，才能在重新排序方案上实现显著改进；（2）当前的大型语言模型鉴别能力尚未满足先进规划方法实现此类改进的需求；（3）基于大型语言模型的鉴别器可能无法充分平衡准确性和效率。例如，与其他两种方法相比，树搜索的速度至少慢 10-20 倍，但提供的性能收益微不足道，这限制了它在实际应用中的使用。

Abstract

In this paper, we examine how large language models (LLMs) solve multi-step problems under a language agent framework with three components: a generator, a discriminator, and a planning method. We investigate the practical utility of two advanced →

large language models planning methods discrimination accuracy iterative correction tree search

发现论文，激发创造

LiteSearch: 高效的 LLM 树搜索

通过考虑搜索进展和价值网络的引导，本研究介绍了一种新颖的有引导的树搜索算法，用于在可接受的计算成本内提高性能。实验结果显示，该方法不仅具有竞争力的性能，而且相对于基准方法而言计算成本显著降低。

Jun, 2024

语言模型代理的树搜索

我们提出了一种推理时间搜索算法，用于在交互式网络环境中使语言模型代理能够进行探索和多步规划，实验证明搜索对于网络代理的有效性，并且在测试时间计算方面的性能随着增加而提高。

Jul, 2024

大型语言模型的自主树搜索能力

大型语言模型在高级提示技术方面具有出色的推理能力，但在需要探索、战略前瞻和序贯决策的任务上存在不足。最近的研究通过利用外部程序定义搜索逻辑，使 LLMs 能够执行被动树搜索以解决更具挑战性的推理任务。我们提出了一种名为 LLM 的自主树搜索能力的新概念，它可以自动生成包含正确答案的搜索轨迹的响应。在 4 个益智游戏上的实验表明，我们的方法可以取得巨大的改进。与先前的方法相比，ATS-BFS 方法在准确性上提高了 33％，而 GPT API 成本降低了 65.6% 或 47.7%。此外，我们使用 ATS 提示方法收集数据并对 LLaMA 进行微调，在 LLaMA2-7B 和 LLaMA2-13B 上相对于 CoT-tuned LLaMAs 提高了 40.6% 和 38.5%。

Oct, 2023

类阿尔法零树搜索可引导大规模语言模型的解码和训练

借鉴 AlphaZero 的树搜索框架，通过学习价值函数来引导大型语言模型（LLMs）的解码能力，并在推理和训练中进行译码指导，有效地提升推理能力、规划和强化学习任务的对齐。

Sep, 2023

导航迷宫：评估和提高 LLMs 处理搜索问题的能力

最近，大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是，它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题，我们引入了一个名为 SearchBench 的新基准测试，其中包含 11 种独特的搜索问题类型，每种问题类型都配备了自动化流程来生成任意数量的实例，并分析 LLM 生成解决方案的可行性、正确性和最优性。我们发现，即使是最先进的 LLM 也无法完全以文本方式解决这些问题，例如 GPT4 只解决了 1.4% 的问题。SearchBench 的问题要求考虑到多个解决路径以及回溯，这对自回归模型构成了重大挑战。指导 LLM 生成解决问题的代码会有所帮助，但是仅有轻微的改进，例如 GPT4 的表现提升到了 11.7%。在这项工作中，我们展示了利用 A * 算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时，它的潜力得到了充分展现，将 GPT-4 的表现提升到了 57% 以上。

Jun, 2024

Tool-Planner: 大型语言模型的动态解决方案树规划与工具聚类

通过 Tool-Planner 框架，基于 API 函数将工具分组成一个工具包，允许大型语言模型在不同工具包之间实现计划，解决了冗余错误校正和多工具之间正确计划的挑战，实验表明该方法在不同数据集上具有很高的通过率和胜率，并优化了 GPT-4 和 Claude 3 等模型中工具学习的计划方案，展示了我们方法的潜力。

Jun, 2024

利用大型语言模型生成的机器人计划树的整合以提高可靠性

通过使用大型语言模型 (LLMs) 生成并优化机器人任务计划，该研究提出了一种创新方法，解决了 LLMs 输出中潜在的不确定性和错误步骤的问题，进而改善了计划的准确性和执行效率。

Jan, 2024

Tree-Planner：基于大型语言模型的高效闭环任务规划

通过分解 LLM 查询为单个计划采样调用和多个实时环境决策调用，Tree-Planner 实现了先进的性能并保持高效率。

Oct, 2023

借助基于树状偏好学习的大型语言模型推进过程验证

基于大型语言模型的树形偏好学习验证器 (Tree-PLV) 通过构建推理树并收集步骤级成对数据进行优先级训练，以更精确地评估完整的推理路径，从而实现在算术和常识推理任务上显著优于现有基准的性能提升。

Jun, 2024

语言代理树搜索在语言模型中统一了推理、行为和规划

LATS 是一种将大型语言模型（LLMs）能力融合于规划、行动和推理的通用框架，具备外部反馈的环境、超越现有技术限制的思考和适应性的问题解决机制，实现了在各种领域中的推理和行动的应用性。

Oct, 2023