将消歧和用户偏好融入大型语言模型中的机器人运动规划

Apr, 2024

将消歧和用户偏好融入大型语言模型中的机器人运动规划

Integrating Disambiguation and User Preferences into Large Language Models for Robot Motion Planning

Mohammed Abugurain, Shinkyu Park

TL;DR该研究论文介绍了一个框架，可以解释人类包含时间元素的导航指令，并直接将其自然语言指令转化为机器人的运动规划。

Abstract

This paper presents a framework that can interpret humans' navigation commands containing temporal elements and directly translate their natural language instructions into robot motion planning. Central to our

framework large language models ambiguity user preferences robot motion planning

发现论文，激发创造

基于大型语言模型的不确定性分析和主动问询的交互式机器人动作规划

通过提出交互式机器人行动规划方法，利用大型语言模型（LLM）进行分析并向人类提问以获取缺失信息，以减少生成精确机器人指令的设计成本，并通过烹饪任务的具体示例证明了方法的有效性，同时揭示了对 LLM 的机器人行动规划的挑战，如提问与问题相关性不高以及未经询问而假设关键信息，为将 LLM 应用于机器人学方面的未来研究提供了有价值的见解。

Aug, 2023

用于机器人物体消歧的 LLM

该研究揭示了预训练大型语言模型在机器人领域中有效消除对象歧义和导航决策挑战方面的能力，特别是在与部分可观测马尔可夫决策过程（POMDPs）进行模拟的复杂决策挑战中。通过将大型语言模型整合到桌面环境消除歧义任务中，我们采用了少样本提示工程系统来提高模型的询问能力，使其能够成功生成和导航到正确的对象。

Jan, 2024

大型语言模型在机器人领域的应用：机遇、挑战与展望

该研究全面概述了大型语言模型（LLMs）和多模态 LLMs 在各种机器人任务中的整合，并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集，我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解，并提供了展望未来的关于人机环境交互的见解。

Jan, 2024

使用大型语言模型生成机器人任务计划

通过使用编程式的提示结构，可以促使大型语言模型在不同的环境、机器人能力和任务中进行计划生成，从而大大减少了任务规划中需要定义的领域知识。

Sep, 2022

借助多模态的大型语言模型增强机器人操作的人工智能反馈

通过使用多模式语言模型从图像输入中提供自动化的偏好反馈来指导决策的研究，展示了一种能够理解机器人操纵任务中轨迹视频的多模式语言模型 CriticGPT，该模型能够提供分析和偏好反馈，并验证了所生成的偏好标签的有效性，实验评估表明其对新任务具有有效的泛化能力，并在 Meta-World 任务上的性能展示了 CriticGPT 的奖励模型能有效指导策略学习，超越了基于最新的预训练表示模型的奖励。

Feb, 2024

大型语言模型是否与人类的社会直觉对人机交互保持一致？

本研究探索了大型语言模型在人机交互领域的表现，对比实际参与者的答案，结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好，但在判断人机行为差异方面成绩不佳，同时指出视觉模型无法完全抓住视频刺激的本质，且大型语言模型对不同沟通行为的评分和行为可取性分数较高。

Mar, 2024

CLARA: 对于可靠的交互式机器人代理对用户的命令进行分类和消歧

本文研究了如何利用大型语言模型实现人机交互，并提出了一种基于不确定性估计方法的指令分类机制，利用上下文关系对摸棱两可的指令进行澄清，并使用问答生成技术与用户交互，最后在实际的人机交互场景中进行了验证。

Jun, 2023

将语言模型调整至明确处理歧义

为了处理口语中存在的不完整或模糊的话语，本论文提出了一种方法来使大型语言模型在面对模糊输入时能够处理，并通过实验证明，经过微调的模型在处理模糊输入的同时，在明确的问题上仍然具有竞争力。

Apr, 2024

部分可观察机器人任务的大型语言模型交互规划

使用大型语言模型（LLMs）的互动规划技术，通过机器人收集环境中缺失的信息并推断底层问题的状态，从而指导机器人执行所需的动作。

Dec, 2023

利用大语言模型将自然语言转换为计划目标

本研究探讨了大型语言模型是否能够将自然语言的目标翻译成结构化的计划语言。我们使用 GPT 3.5 变种进行了实验，结果表明大型语言模型更适合进行翻译而不是规划，虽然这些模型能够利用常识知识和推理填补自然语言目标中缺失的细节，但在涉及到数字或物理推理的任务中，它们可能会出现失败，并且对所使用的提示信息很敏感。

Feb, 2023