基于计划的大型语言模型在双目标对话设置中的应用

Feb, 2024

基于计划的大型语言模型在双目标对话设置中的应用

Plan-Grounded Large Language Models for Dual Goal Conversational Settings

Diogo Glória-Silva, Rafael Ferreira, Diogo Tavares, David Semedo, João Magalhães

TL;DR本文介绍了一个新颖的大型语言模型（LLM），在混合主动对话环境中对话，并通过制定规程计划引导用户，并在需要时激活安全保障措施。实验结果表明，该模型取得了 2.1 倍的改进，并在未知领域中显示出良好的泛化能力。

Abstract

Training large language models (LLMs) to follow user instructions has been shown to supply the LLM with ample capacity to converse fluently while being aligned with humans. Yet, it is not completely clear how an LLM can lead a plan-grounded conversation in mixed-initiative settings whe

large language models mixed-initiative conversational setting procedural plan dialogue initiative safety guardrails

发现论文，激发创造

基于符号规划和代码生成的实地对话

使用大型语言模型与符号规划器和基于代码执行的系统组成的模块化可解释的对话系统，在处理任务导向对话中解决了大型语言模型难于引导到任务目标和处理新颖基础的问题，并在具有抽象散点图的协作参考解决任务中显著优于之前的最新技术，包括在最具挑战性的情境中将人工评估的任务成功率从 56% 提高到 69%。

Oct, 2023

LLM-Planner: 借助大型语言模型进行少样本基于实例的具身 agent 规划

本研究使用大型语言模型 (Large Language Models, LLMs) 作为规划师，以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了 LLM-Planner 方法进行 few-shot planning，同时提出通过物理接口增强 LLMs 的简单而有效的方法，实验结果表明该方法在 ALFRED 数据集上能够取得与使用全数据训练的基线模型相当的性能。

Dec, 2022

利用大语言模型将自然语言转换为计划目标

本研究探讨了大型语言模型是否能够将自然语言的目标翻译成结构化的计划语言。我们使用 GPT 3.5 变种进行了实验，结果表明大型语言模型更适合进行翻译而不是规划，虽然这些模型能够利用常识知识和推理填补自然语言目标中缺失的细节，但在涉及到数字或物理推理的任务中，它们可能会出现失败，并且对所使用的提示信息很敏感。

Feb, 2023

开放式实地规划：挑战与基准构建

提出了一个新的计划任务 —— 开放式基于实际情况的规划，通过建立一个横跨广泛领域的开放式基于实际情况的规划基准，测试了现有先进的大型语言模型和五种规划方法，并揭示了现有大型语言模型和方法在开放领域的基于实际情况的规划所面临的挑战，为开放式基于实际情况的规划定义和建立了一个基础数据集，并对基于大型语言模型的规划的潜在挑战和未来发展方向进行了探讨。

Jun, 2024

关于借助语言模型实现具体任务计划的研究

本研究旨在探讨语言模型是否具有生成具体执行计划的能力，并针对该问题提出了一个新的问题解决方案: G-PlanET。通过将高级目标和特定环境中物体的数据表输入，我们设计了一种迭代解码策略，并使用新的度量标准 KAS 评估模型执行计划的质量，实验结果表明，将环境信息编码为表格，迭代解码策略可以显著提高语言模型的表现。

Aug, 2022

通过 RL 对想象中的对话进行零样本目标导向对话

通过使用强化学习进行交互式对话的目标导向任务，本研究提出利用大型语言模型生成可能的交互示例，再通过强化学习算法优化这些示例，以实现更优化的交互能力，从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。

Nov, 2023

大型语言模型是假定的语义基础还是猜测？

现有的大型语言模型在构建共性时，假设存在共同基础，而无需使用对话行为，因此需要进一步研究人机交互中的共性问题。

Nov, 2023

CPS-LLM：基于大型语言模型的人 - 机 - 工网络中安全使用计划生成器

使用大型语言模型（LLM）和人在环循环人在植物物理系统（CPS）中探索将高水平提示转化为个性化行动计划，并随后将该计划转化为由实际物理系统控制器自动执行的推理序列决策，以达到控制目标。我们表明，将 LLM 置于上下文中使其能够生成领域特定的计划相对简单。然而，这些计划可能对物理系统来说无法执行，或对人类使用者来说不安全。因此，我们提出了 CPS-LLM，这是一个使用指令调整框架进行重新训练的 LLM，确保生成的计划不仅与 CPS 的物理系统动力学一致，而且对人类使用者来说是安全的。CPS-LLM 由两个创新组成部分组成：a）一种基于液态时常的神经网络物理动力学系数估计器，可以推导出带有一些未测量状态变量的动力学模型的系数；b）然后使用模型系数对使用动力学系统和相应模型系数体现的提示进行 LLM 训练。我们表明，当将 CPS-LLM 与如 BARD 等上下文化聊天机器人集成时，它可以生成可行且安全的计划，以管理被 1 型糖尿病患者使用的自动胰岛素输送系统的外部事件，如餐饮事务。

May, 2024

异步计划推理中的图增强大语言模型

异步计划推理对于优化时间成本需要进行顺序和并行规划，这是具有挑战性的。本研究首次对大型语言模型（LLMs）在此任务上的成功进行了大规模研究。我们发现，代表性的闭源和开源 LLMs，包括 GPT-4 和 LLaMA-2，在缺乏关于任务解决过程的说明时表现不佳。我们提出了一种新颖技术，称为 Plan Like a Graph (PLaG)，它将图形与自然语言提示相结合，取得了最先进的结果。我们表明，尽管 PLaG 可以提升模型性能，但在任务复杂性增加时，LLMs 仍然会遭受严重退化，凸显了利用 LLMs 模拟数字设备的局限性。我们认为这项研究是将 LLMs 用作高效自治代理的一个令人兴奋的步骤。

Feb, 2024

大型语言模型的规划能力 - 一项关键调查

本文旨在研究 LLLms 在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估 LLMs 在自主规划和启发式两种不同模式下的表现，发现 LLMs 在自主规划方面的表现非常有限，但在启发式模式下，LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

May, 2023