旅行规划：一项针对与语言代理实际商用计划的基准测试

Feb, 2024

旅行规划：一项针对与语言代理实际商用计划的基准测试

TravelPlanner: A Benchmark for Real-World Planning with Language Agents

Jian Xie, Kai Zhang, Jiangjie Chen, Tinghui Zhu, Renze Lou...

TL;DR语言代理的规划能力在复杂环境下仍然面临挑战，但旅行规划问题提供了一个有意义又具有挑战性的测试平台。

Abstract

planning has been part of the core pursuit for artificial intelligence since its conception, but earlier AI agents mostly focused on constrained settings because many of the cognitive substrates necessary for hum

planning artificial intelligence language agents complex settings travelplanner

发现论文，激发创造

提问为前题：面向现实世界规划的积极语言代理

这篇研究论文探索了大型语言模型在用户指令理解和决策方面的潜力，并提出了一种新的任务，即主动性代理规划。通过建立一个新的基准数据集和提出一个多代理框架，研究者验证了所提出框架的有效性。

Jun, 2024

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统，对大型语言模型和提示进行了广泛实验，并探索了基线任务规划器的多个改进，预计该基准工具将加快语言导向的任务规划器的发展。

Feb, 2024

自然计划：对自然语言规划的 LLMs 基准测试

NATURAL PLAN 是一个真实的自然语言规划基准，包含三个关键任务：旅行规划、会议规划和日历安排。在任务的全信息下评估了 LLMs 的规划能力，通过提供 Google Flights、Google Maps 和 Google Calendar 等工具的输出作为模型的上下文，消除了在规划评估中使用工具环境的需要。我们观察到 NATURAL PLAN 对于现有模型来说是一个具有挑战性的基准。例如，在旅行规划中，GPT-4 和 Gemini 1.5 Pro 仅能分别实现 31.1% 和 34.8% 的解决率。当问题复杂度增加时，模型性能急剧下降：当有 10 个城市时，所有模型的表现均低于 5%，凸显了现有 LLMs 在自然语言规划方面存在的重大差距。我们还对 NATURAL PLAN 进行了全面的剔除研究，以进一步阐明自我修正、少样本泛化以及长上下文中的规划对于改善 LLM 规划的 (无) 效性。

Jun, 2024

发展交互式旅游规划：由大型语言模型驱动的对话机器人系统

我们旨在构建一个系统，不仅利用大型语言模型的灵活对话能力，还利用其先进的规划能力，降低人类对话者的讲话负担并高效地规划行程。我们提出了一种将旅行社的复杂任务划分为多个子任务的方法，将每个子任务作为一个独立阶段进行管理，以有效地完成任务。我们的提出的系统在 2023 年对话机器人比赛的预赛中取得了一定的成功，并报告了比赛中发现的挑战。

Dec, 2023

大型语言模型利用形式验证工具进行严谨旅行规划

提出了一种以大型语言模型为基础的交互规划框架，利用可满足性模理论和 SMT 求解器解决复杂组合优化问题，并在旅行规划领域取得高成功率。

Apr, 2024

语言代理的元任务规划

此研究论文介绍了 Meta-Task Planning (MTP)，一种用于协作式基于大型语言模型的多智能体系统的零样本方法，通过将复杂任务分解成次级任务或元任务来简化任务规划，进而将每个元任务映射为可执行动作。该方法在 TravelPlanner 和 API-Bank 两个基准测试中进行了评估，取得了出色的结果，显示了将 LLM 与多智能体系统整合的巨大潜力。

May, 2024

大型语言模型的多阶段规划任务中的类人推理框架

我们在此研究中专注于解决多阶段旅行计划问题，通过开发类似人类规划模式的规划框架来提高 LLM 代理的规划能力，实验结果表明我们的框架与 GPT-4-Turbo 结合能够在旅行计划任务中获得显著的性能提升。

May, 2024

关于大型语言模型的规划能力（一项带有提议基准的关键调查）

研究了通用 Web 语料库上训练的语言模型的计划能力，开发了基于国际计划竞赛领域的基准套件，在自治、启发式和人机协作模式下对 LLM 进行了评估，发现自主生成可执行计划的能力非常有限，只有约 3% 的成功率。

Feb, 2023

TRIP-PAL：结合大型语言模型和自动规划器的具保障旅行规划

TRIP-PAL 是一种结合 LLM 和自动规划器的混合方法，通过将旅行信息和用户信息转化为规划器可处理的数据结构，生成旅行计划以保证各种约束条件满足和用户效用优化，在生成旅行计划方面的性能优于 LLM。

Jun, 2024

AdaPlanner：使用语言模型的自适应反馈规划

本文提出了 AdaPlanner，一种基于闭环反馈的语言模型智能体自适应地改进生成的计划，并通过新的技能发现机制，使其能够在更复杂的任务和环境中实现更好的连续决策性能，实验结果表明 AdaPlanner 在 ALFWorld 和 MiniWoB++ 环境中优于现有的基线算法。

May, 2023