大型语言模型利用形式验证工具进行严谨旅行规划
大语言模型在旅行规划领域有着显著的实际应用,通过 LLM 模块化框架的操作,对 LLMs 的推理能力进行改进,并在基线性能上取得了 4.6 倍的提升。
May, 2024
TRIP-PAL 是一种结合 LLM 和自动规划器的混合方法,通过将旅行信息和用户信息转化为规划器可处理的数据结构,生成旅行计划以保证各种约束条件满足和用户效用优化,在生成旅行计划方面的性能优于 LLM。
Jun, 2024
大语言模型在规划和推理任务中的作用有很多混淆。我们认为,自回归 LLM 本身无法进行规划或自验证,并指出了文献中常见误解的原因。我们提出了 LLM - 模块化框架的愿景,将 LLM 的优势与外部基于模型的验证器在更紧密的双向交互方式中结合起来。我们将展示如何利用 LLM 获得驱动外部验证器的模型。我们还将论述 LLM - 模块化框架提供了更好的神经符号方法,通过更灵活的知识、问题和偏好规范,扩展了基于模型的规划 / 推理范围。
Feb, 2024
这是第一项研究应用大语言模型(LLMs)进行自动规划任务模型空间编辑的工作。我们探索了 AI 规划文献中研究的两种不同类型的模型空间问题,以及 LLM 对这些任务的影响。我们通过实验证明了 LLM 的性能与组合搜索(CS)的对比情况,以及 LLM 作为独立模型空间推理器以及作为与 CS 方法结合的统计信号的双阶段过程的一部分时的性能。我们的实验结果表明,LLM 在未来进一步探索规划任务中的模型空间推理的前景很有希望。
Nov, 2023
本研究探讨了大型语言模型是否能够将自然语言的目标翻译成结构化的计划语言。我们使用 GPT 3.5 变种进行了实验,结果表明大型语言模型更适合进行翻译而不是规划,虽然这些模型能够利用常识知识和推理填补自然语言目标中缺失的细节,但在涉及到数字或物理推理的任务中,它们可能会出现失败,并且对所使用的提示信息很敏感。
Feb, 2023
我们在此研究中专注于解决多阶段旅行计划问题,通过开发类似人类规划模式的规划框架来提高 LLM 代理的规划能力,实验结果表明我们的框架与 GPT-4-Turbo 结合能够在旅行计划任务中获得显著的性能提升。
May, 2024
本文旨在研究 LLLms 在常识规划任务中的规划能力,通过在国际计划竞赛中生成一系列实例,并评估 LLMs 在自主规划和启发式两种不同模式下的表现,发现 LLMs 在自主规划方面的表现非常有限,但在启发式模式下,LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。
May, 2023