Feb, 2024

LLM 规划中何时使用树搜索?取决于鉴别器

TL;DR本文研究了大型语言模型在语言代理框架下如何通过生成器、鉴别器和规划方法解决多步骤问题。我们调查了两种先进的规划方法,即迭代修正和树搜索的实际效用。通过对文本到 SQL 解析和数学推理两个任务的实验发现:(1)先进的规划方法要求鉴别器的准确率至少为 90%,才能在重新排序方案上实现显著改进;(2)当前的大型语言模型鉴别能力尚未满足先进规划方法实现此类改进的需求;(3)基于大型语言模型的鉴别器可能无法充分平衡准确性和效率。例如,与其他两种方法相比,树搜索的速度至少慢 10-20 倍,但提供的性能收益微不足道,这限制了它在实际应用中的使用。