旅行规划:一项针对与语言代理实际商用计划的基准测试
这篇研究论文探索了大型语言模型在用户指令理解和决策方面的潜力,并提出了一种新的任务,即主动性代理规划。通过建立一个新的基准数据集和提出一个多代理框架,研究者验证了所提出框架的有效性。
Jun, 2024
提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统,对大型语言模型和提示进行了广泛实验,并探索了基线任务规划器的多个改进,预计该基准工具将加快语言导向的任务规划器的发展。
Feb, 2024
NATURAL PLAN 是一个真实的自然语言规划基准,包含三个关键任务:旅行规划、会议规划和日历安排。在任务的全信息下评估了 LLMs 的规划能力,通过提供 Google Flights、Google Maps 和 Google Calendar 等工具的输出作为模型的上下文,消除了在规划评估中使用工具环境的需要。我们观察到 NATURAL PLAN 对于现有模型来说是一个具有挑战性的基准。例如,在旅行规划中,GPT-4 和 Gemini 1.5 Pro 仅能分别实现 31.1% 和 34.8% 的解决率。当问题复杂度增加时,模型性能急剧下降:当有 10 个城市时,所有模型的表现均低于 5%,凸显了现有 LLMs 在自然语言规划方面存在的重大差距。我们还对 NATURAL PLAN 进行了全面的剔除研究,以进一步阐明自我修正、少样本泛化以及长上下文中的规划对于改善 LLM 规划的 (无) 效性。
Jun, 2024
我们旨在构建一个系统,不仅利用大型语言模型的灵活对话能力,还利用其先进的规划能力,降低人类对话者的讲话负担并高效地规划行程。我们提出了一种将旅行社的复杂任务划分为多个子任务的方法,将每个子任务作为一个独立阶段进行管理,以有效地完成任务。我们的提出的系统在 2023 年对话机器人比赛的预赛中取得了一定的成功,并报告了比赛中发现的挑战。
Dec, 2023
此研究论文介绍了 Meta-Task Planning (MTP),一种用于协作式基于大型语言模型的多智能体系统的零样本方法,通过将复杂任务分解成次级任务或元任务来简化任务规划,进而将每个元任务映射为可执行动作。该方法在 TravelPlanner 和 API-Bank 两个基准测试中进行了评估,取得了出色的结果,显示了将 LLM 与多智能体系统整合的巨大潜力。
May, 2024
我们在此研究中专注于解决多阶段旅行计划问题,通过开发类似人类规划模式的规划框架来提高 LLM 代理的规划能力,实验结果表明我们的框架与 GPT-4-Turbo 结合能够在旅行计划任务中获得显著的性能提升。
May, 2024
研究了通用 Web 语料库上训练的语言模型的计划能力,开发了基于国际计划竞赛领域的基准套件,在自治、启发式和人机协作模式下对 LLM 进行了评估,发现自主生成可执行计划的能力非常有限,只有约 3% 的成功率。
Feb, 2023
TRIP-PAL 是一种结合 LLM 和自动规划器的混合方法,通过将旅行信息和用户信息转化为规划器可处理的数据结构,生成旅行计划以保证各种约束条件满足和用户效用优化,在生成旅行计划方面的性能优于 LLM。
Jun, 2024
本文提出了 AdaPlanner,一种基于闭环反馈的语言模型智能体自适应地改进生成的计划,并通过新的技能发现机制,使其能够在更复杂的任务和环境中实现更好的连续决策性能,实验结果表明 AdaPlanner 在 ALFWorld 和 MiniWoB++ 环境中优于现有的基线算法。
May, 2023