语言模型作为零 - shot 规划器:提取行动知识用于具身代理
本研究使用大型语言模型 (Large Language Models, LLMs) 作为规划师,以完成视觉感知环境中的复杂任务的具有身体接口的代理人。研究提出了 LLM-Planner 方法进行 few-shot planning,同时提出通过物理接口增强 LLMs 的简单而有效的方法,实验结果表明该方法在 ALFRED 数据集上能够取得与使用全数据训练的基线模型相当的性能。
Dec, 2022
大型语言模型(LLMs)已经显示出在机器人方面作为高级规划器的潜力,但通常假设 LLMs 在低级轨迹规划方面不具备足够的知识。本文深入探讨了这个假设,研究了当 LLM(GPT-4)只有对象检测和分割视觉模型的访问权限时,是否可以直接预测操作技能的密集序列的末端执行器姿态。我们研究了一个单一的任务无关提示在 26 个真实世界的基于语言的任务上的表现,比如 “打开瓶盖” 和 “用海绵擦拭盘子”,并调查了这个提示中哪些设计选择是最有效的。我们的结论打破了 LLMs 在机器人领域的假设限制,首次揭示了 LLMs 确实具备在常见任务中理解低级机器人控制的能力,并且它们还可以检测到失败并相应地重新规划轨迹。
Oct, 2023
本研究旨在探讨语言模型是否具有生成具体执行计划的能力,并针对该问题提出了一个新的问题解决方案: G-PlanET。通过将高级目标和特定环境中物体的数据表输入,我们设计了一种迭代解码策略,并使用新的度量标准 KAS 评估模型执行计划的质量,实验结果表明,将环境信息编码为表格,迭代解码策略可以显著提高语言模型的表现。
Aug, 2022
本文提出了一种整合环境对象和对象关系作为额外输入的方法,从而产生与场景中的对象相映射的行动计划,并设计了一种新的评分函数,该方法在 VirtualHome 模拟器和 ActivityPrograms 知识库中取得了可靠的结果,其行动计划的正确性和可执行性分别优于之前的研究约 5.3%和 8.9%。
Oct, 2022
提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件,利用 LLM 推理来启发性地完成经典规划器发出的部分计划,并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明,使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划,就能够比随机探索更少的执行步骤和环境重置,并同时恢复领域的基本行动语义。
Jun, 2024
通过提出交互式机器人行动规划方法,利用大型语言模型(LLM)进行分析并向人类提问以获取缺失信息,以减少生成精确机器人指令的设计成本,并通过烹饪任务的具体示例证明了方法的有效性,同时揭示了对 LLM 的机器人行动规划的挑战,如提问与问题相关性不高以及未经询问而假设关键信息,为将 LLM 应用于机器人学方面的未来研究提供了有价值的见解。
Aug, 2023
通过引入显式的行动知识,KnowAgent 为大型语言模型(LLMs)的规划能力提供了增强,实现了更合理的轨迹合成,从而提高了语言代理的规划性能。
Mar, 2024