语言模型作为零 - shot 规划器：提取行动知识用于具身代理

Jan, 2022

语言模型作为零 - shot 规划器：提取行动知识用于具身代理

Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

Wenlong Huang, Pieter Abbeel, Deepak Pathak, Igor Mordatch

TL;DR本文研究大型语言模型在互动环境中是否可以利用所学的世界知识来执行高层任务，并提出了一种条件方法，将语言模型生成的中级计划语义上翻译为合适的操作以提高执行性能。在 VirtualHome 环境中的实证评估结果表明，该方法在可执行性方面显著优于大型语言模型基线。

Abstract

Can world knowledge learned by large language models (LLMs) be used to act in interactive environments? In this paper, we investigate the possibility of →

large language models interactive environments grounding high-level tasks mid-level plans admissible actions

发现论文，激发创造

LLM-Planner: 借助大型语言模型进行少样本基于实例的具身 agent 规划

本研究使用大型语言模型 (Large Language Models, LLMs) 作为规划师，以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了 LLM-Planner 方法进行 few-shot planning，同时提出通过物理接口增强 LLMs 的简单而有效的方法，实验结果表明该方法在 ALFRED 数据集上能够取得与使用全数据训练的基线模型相当的性能。

Dec, 2022

语言模型作为零样本轨迹生成器

大型语言模型（LLMs）已经显示出在机器人方面作为高级规划器的潜力，但通常假设 LLMs 在低级轨迹规划方面不具备足够的知识。本文深入探讨了这个假设，研究了当 LLM（GPT-4）只有对象检测和分割视觉模型的访问权限时，是否可以直接预测操作技能的密集序列的末端执行器姿态。我们研究了一个单一的任务无关提示在 26 个真实世界的基于语言的任务上的表现，比如 “打开瓶盖” 和 “用海绵擦拭盘子”，并调查了这个提示中哪些设计选择是最有效的。我们的结论打破了 LLMs 在机器人领域的假设限制，首次揭示了 LLMs 确实具备在常见任务中理解低级机器人控制的能力，并且它们还可以检测到失败并相应地重新规划轨迹。

Oct, 2023

关于借助语言模型实现具体任务计划的研究

本研究旨在探讨语言模型是否具有生成具体执行计划的能力，并针对该问题提出了一个新的问题解决方案: G-PlanET。通过将高级目标和特定环境中物体的数据表输入，我们设计了一种迭代解码策略，并使用新的度量标准 KAS 评估模型执行计划的质量，实验结果表明，将环境信息编码为表格，迭代解码策略可以显著提高语言模型的表现。

Aug, 2022

使用具有环境意识的语言模型生成可执行的行动计划

本文提出了一种整合环境对象和对象关系作为额外输入的方法，从而产生与场景中的对象相映射的行动计划，并设计了一种新的评分函数，该方法在 VirtualHome 模拟器和 ActivityPrograms 知识库中取得了可靠的结果，其行动计划的正确性和可执行性分别优于之前的研究约 5.3％和 8.9％。

Oct, 2022

语言模型可以从环境反馈中推断经典计划器的动作语义

提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件，利用 LLM 推理来启发性地完成经典规划器发出的部分计划，并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明，使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划，就能够比随机探索更少的执行步骤和环境重置，并同时恢复领域的基本行动语义。

Jun, 2024

基于大型语言模型的不确定性分析和主动问询的交互式机器人动作规划

通过提出交互式机器人行动规划方法，利用大型语言模型（LLM）进行分析并向人类提问以获取缺失信息，以减少生成精确机器人指令的设计成本，并通过烹饪任务的具体示例证明了方法的有效性，同时揭示了对 LLM 的机器人行动规划的挑战，如提问与问题相关性不高以及未经询问而假设关键信息，为将 LLM 应用于机器人学方面的未来研究提供了有价值的见解。

Aug, 2023

部分可观察机器人任务的大型语言模型交互规划

使用大型语言模型（LLMs）的互动规划技术，通过机器人收集环境中缺失的信息并推断底层问题的状态，从而指导机器人执行所需的动作。

Dec, 2023

在行动中联系多模态大型语言模型

通过研究行为空间适配器，我们发现多模态大型语言模型在融入多种方法并处理连续行为和离散行为时可以获得最佳性能。

Jun, 2024

KnowAgent：基于 LLL 的智能 Agent 的知识增强规划

通过引入显式的行动知识，KnowAgent 为大型语言模型（LLMs）的规划能力提供了增强，实现了更合理的轨迹合成，从而提高了语言代理的规划性能。

Mar, 2024

使用大型语言模型生成机器人任务计划

通过使用编程式的提示结构，可以促使大型语言模型在不同的环境、机器人能力和任务中进行计划生成，从而大大减少了任务规划中需要定义的领域知识。

Sep, 2022