基于计划的大型语言模型在双目标对话设置中的应用
使用大型语言模型与符号规划器和基于代码执行的系统组成的模块化可解释的对话系统,在处理任务导向对话中解决了大型语言模型难于引导到任务目标和处理新颖基础的问题,并在具有抽象散点图的协作参考解决任务中显著优于之前的最新技术,包括在最具挑战性的情境中将人工评估的任务成功率从 56% 提高到 69%。
Oct, 2023
本研究使用大型语言模型 (Large Language Models, LLMs) 作为规划师,以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了 LLM-Planner 方法进行 few-shot planning,同时提出通过物理接口增强 LLMs 的简单而有效的方法,实验结果表明该方法在 ALFRED 数据集上能够取得与使用全数据训练的基线模型相当的性能。
Dec, 2022
本研究探讨了大型语言模型是否能够将自然语言的目标翻译成结构化的计划语言。我们使用 GPT 3.5 变种进行了实验,结果表明大型语言模型更适合进行翻译而不是规划,虽然这些模型能够利用常识知识和推理填补自然语言目标中缺失的细节,但在涉及到数字或物理推理的任务中,它们可能会出现失败,并且对所使用的提示信息很敏感。
Feb, 2023
提出了一个新的计划任务 —— 开放式基于实际情况的规划,通过建立一个横跨广泛领域的开放式基于实际情况的规划基准,测试了现有先进的大型语言模型和五种规划方法,并揭示了现有大型语言模型和方法在开放领域的基于实际情况的规划所面临的挑战,为开放式基于实际情况的规划定义和建立了一个基础数据集,并对基于大型语言模型的规划的潜在挑战和未来发展方向进行了探讨。
Jun, 2024
本研究旨在探讨语言模型是否具有生成具体执行计划的能力,并针对该问题提出了一个新的问题解决方案: G-PlanET。通过将高级目标和特定环境中物体的数据表输入,我们设计了一种迭代解码策略,并使用新的度量标准 KAS 评估模型执行计划的质量,实验结果表明,将环境信息编码为表格,迭代解码策略可以显著提高语言模型的表现。
Aug, 2022
通过使用强化学习进行交互式对话的目标导向任务,本研究提出利用大型语言模型生成可能的交互示例,再通过强化学习算法优化这些示例,以实现更优化的交互能力,从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。
Nov, 2023
使用大型语言模型(LLM)和人在环循环人在植物物理系统(CPS)中探索将高水平提示转化为个性化行动计划,并随后将该计划转化为由实际物理系统控制器自动执行的推理序列决策,以达到控制目标。我们表明,将 LLM 置于上下文中使其能够生成领域特定的计划相对简单。然而,这些计划可能对物理系统来说无法执行,或对人类使用者来说不安全。因此,我们提出了 CPS-LLM,这是一个使用指令调整框架进行重新训练的 LLM,确保生成的计划不仅与 CPS 的物理系统动力学一致,而且对人类使用者来说是安全的。CPS-LLM 由两个创新组成部分组成:a)一种基于液态时常的神经网络物理动力学系数估计器,可以推导出带有一些未测量状态变量的动力学模型的系数;b)然后使用模型系数对使用动力学系统和相应模型系数体现的提示进行 LLM 训练。我们表明,当将 CPS-LLM 与如 BARD 等上下文化聊天机器人集成时,它可以生成可行且安全的计划,以管理被 1 型糖尿病患者使用的自动胰岛素输送系统的外部事件,如餐饮事务。
May, 2024
异步计划推理对于优化时间成本需要进行顺序和并行规划,这是具有挑战性的。本研究首次对大型语言模型(LLMs)在此任务上的成功进行了大规模研究。我们发现,代表性的闭源和开源 LLMs,包括 GPT-4 和 LLaMA-2,在缺乏关于任务解决过程的说明时表现不佳。我们提出了一种新颖技术,称为 Plan Like a Graph (PLaG),它将图形与自然语言提示相结合,取得了最先进的结果。我们表明,尽管 PLaG 可以提升模型性能,但在任务复杂性增加时,LLMs 仍然会遭受严重退化,凸显了利用 LLMs 模拟数字设备的局限性。我们认为这项研究是将 LLMs 用作高效自治代理的一个令人兴奋的步骤。
Feb, 2024
本文旨在研究 LLLms 在常识规划任务中的规划能力,通过在国际计划竞赛中生成一系列实例,并评估 LLMs 在自主规划和启发式两种不同模式下的表现,发现 LLMs 在自主规划方面的表现非常有限,但在启发式模式下,LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。
May, 2023