自然计划：对自然语言规划的 LLMs 基准测试

Jun, 2024

自然计划：对自然语言规划的 LLMs 基准测试

NATURAL PLAN: Benchmarking LLMs on Natural Language Planning

Huaixiu Steven Zheng, Swaroop Mishra, Hugh Zhang, Xinyun Chen, Minmin Chen...

TL;DRNATURAL PLAN 是一个真实的自然语言规划基准，包含三个关键任务：旅行规划、会议规划和日历安排。在任务的全信息下评估了 LLMs 的规划能力，通过提供 Google Flights、Google Maps 和 Google Calendar 等工具的输出作为模型的上下文，消除了在规划评估中使用工具环境的需要。我们观察到 NATURAL PLAN 对于现有模型来说是一个具有挑战性的基准。例如，在旅行规划中，GPT-4 和 Gemini 1.5 Pro 仅能分别实现 31.1% 和 34.8% 的解决率。当问题复杂度增加时，模型性能急剧下降：当有 10 个城市时，所有模型的表现均低于 5%，凸显了现有 LLMs 在自然语言规划方面存在的重大差距。我们还对 NATURAL PLAN 进行了全面的剔除研究，以进一步阐明自我修正、少样本泛化以及长上下文中的规划对于改善 LLM 规划的 (无) 效性。

Abstract

We introduce natural plan, a realistic planning benchmark in natural language containing 3 key tasks: Trip Planning, Meeting Planning, and Calendar Scheduling. We focus our →

natural plan planning benchmark llms evaluation gpt-4

发现论文，激发创造

大型语言模型能成为良好的路径规划器吗？空间 - 时间推理的基准和研究调查

大型语言模型在路径规划和空间推理方面取得了显著的成功，少样本的 GPT-4 通过不同的提示方法在空间推理方面表现出了潜力，而微调的 LLMs 则在小环境或有障碍物的情况下难以推广。

Oct, 2023

探索和基准测试大型语言模型的规划能力

提高大型语言模型的规划能力，研究领域包括基于上下文学习、微调，以及在未知领域的性能评估。

Jun, 2024

利用大语言模型将自然语言转换为计划目标

本研究探讨了大型语言模型是否能够将自然语言的目标翻译成结构化的计划语言。我们使用 GPT 3.5 变种进行了实验，结果表明大型语言模型更适合进行翻译而不是规划，虽然这些模型能够利用常识知识和推理填补自然语言目标中缺失的细节，但在涉及到数字或物理推理的任务中，它们可能会出现失败，并且对所使用的提示信息很敏感。

Feb, 2023

关于大型语言模型的规划能力（一项带有提议基准的关键调查）

研究了通用 Web 语料库上训练的语言模型的计划能力，开发了基于国际计划竞赛领域的基准套件，在自治、启发式和人机协作模式下对 LLM 进行了评估，发现自主生成可执行计划的能力非常有限，只有约 3% 的成功率。

Feb, 2023

旅行规划：一项针对与语言代理实际商用计划的基准测试

语言代理的规划能力在复杂环境下仍然面临挑战，但旅行规划问题提供了一个有意义又具有挑战性的测试平台。

Feb, 2024

大型语言模型的规划能力 - 一项关键调查

本文旨在研究 LLLms 在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估 LLMs 在自主规划和启发式两种不同模式下的表现，发现 LLMs 在自主规划方面的表现非常有限，但在启发式模式下，LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

May, 2023

评估和开发面向 LLMs 的规划感知技术

基于最近的研究，我们通过实验表明，大语言模型（LLMs) 缺乏规划所需的必要技能。基于这些观察，我们提倡将 LLMs 与经典规划方法相结合的混合方法的潜力。然后，我们引入了一种新颖的混合方法 SimPlan，并在一个新的具有挑战性的环境中评估其性能。我们在各种规划领域进行了大量实验，结果表明 SimPlan 明显优于现有的基于 LLMs 的规划器。

Feb, 2024

大型语言模型利用形式验证工具进行严谨旅行规划

提出了一种以大型语言模型为基础的交互规划框架，利用可满足性模理论和 SMT 求解器解决复杂组合优化问题，并在旅行规划领域取得高成功率。

Apr, 2024

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022

LLM+P：利用最优规划提升大型语言模型的性能

本文介绍了 LLM + P 框架，将经典计划器的优点结合到大语言模型中，可以通过自然语言描述解决计划问题，经过实验发现 LLM + P 可以提供大多数问题的最优解，而 LLMs 则无法为大多数问题提供甚至可行的计划。

Apr, 2023