Jun, 2024

导航迷宫:评估和提高 LLMs 处理搜索问题的能力

TL;DR最近,大型语言模型在数学和推理基准测试中取得了令人瞩目的表现。但是,它们在对人类而言相对容易的逻辑问题和谜题上仍然经常遇到困难。为了进一步研究这个问题,我们引入了一个名为 SearchBench 的新基准测试,其中包含 11 种独特的搜索问题类型,每种问题类型都配备了自动化流程来生成任意数量的实例,并分析 LLM 生成解决方案的可行性、正确性和最优性。我们发现,即使是最先进的 LLM 也无法完全以文本方式解决这些问题,例如 GPT4 只解决了 1.4% 的问题。SearchBench 的问题要求考虑到多个解决路径以及回溯,这对自回归模型构成了重大挑战。指导 LLM 生成解决问题的代码会有所帮助,但是仅有轻微的改进,例如 GPT4 的表现提升到了 11.7%。在这项工作中,我们展示了利用 A * 算法实现的上下文学习如何提高性能。当将这种优化方法与我们提出的多阶段多尝试方法相结合时,它的潜力得到了充分展现,将 GPT-4 的表现提升到了 57% 以上。