将消歧和用户偏好融入大型语言模型中的机器人运动规划
通过提出交互式机器人行动规划方法,利用大型语言模型(LLM)进行分析并向人类提问以获取缺失信息,以减少生成精确机器人指令的设计成本,并通过烹饪任务的具体示例证明了方法的有效性,同时揭示了对 LLM 的机器人行动规划的挑战,如提问与问题相关性不高以及未经询问而假设关键信息,为将 LLM 应用于机器人学方面的未来研究提供了有价值的见解。
Aug, 2023
该研究揭示了预训练大型语言模型在机器人领域中有效消除对象歧义和导航决策挑战方面的能力,特别是在与部分可观测马尔可夫决策过程(POMDPs)进行模拟的复杂决策挑战中。通过将大型语言模型整合到桌面环境消除歧义任务中,我们采用了少样本提示工程系统来提高模型的询问能力,使其能够成功生成和导航到正确的对象。
Jan, 2024
该研究全面概述了大型语言模型(LLMs)和多模态 LLMs 在各种机器人任务中的整合,并提出了一种利用多模态 GPT-4V 结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集,我们的结果表明 GPT-4V 有效地提升了机器人在具身任务中的表现。对 LLMs 和多模态 LLMs 在各种机器人任务中的广泛调查和评估丰富了对以 LLMs 为中心的具身智能的理解,并提供了展望未来的关于人机环境交互的见解。
Jan, 2024
通过使用多模式语言模型从图像输入中提供自动化的偏好反馈来指导决策的研究,展示了一种能够理解机器人操纵任务中轨迹视频的多模式语言模型 CriticGPT,该模型能够提供分析和偏好反馈,并验证了所生成的偏好标签的有效性,实验评估表明其对新任务具有有效的泛化能力,并在 Meta-World 任务上的性能展示了 CriticGPT 的奖励模型能有效指导策略学习,超越了基于最新的预训练表示模型的奖励。
Feb, 2024
本研究探索了大型语言模型在人机交互领域的表现,对比实际参与者的答案,结果显示 GPT-4 在选择适当的沟通行为和评判行为可取性、意图和令人惊讶程度等方面表现较好,但在判断人机行为差异方面成绩不佳,同时指出视觉模型无法完全抓住视频刺激的本质,且大型语言模型对不同沟通行为的评分和行为可取性分数较高。
Mar, 2024
本文研究了如何利用大型语言模型实现人机交互,并提出了一种基于不确定性估计方法的指令分类机制,利用上下文关系对摸棱两可的指令进行澄清,并使用问答生成技术与用户交互,最后在实际的人机交互场景中进行了验证。
Jun, 2023
为了处理口语中存在的不完整或模糊的话语,本论文提出了一种方法来使大型语言模型在面对模糊输入时能够处理,并通过实验证明,经过微调的模型在处理模糊输入的同时,在明确的问题上仍然具有竞争力。
Apr, 2024
本研究探讨了大型语言模型是否能够将自然语言的目标翻译成结构化的计划语言。我们使用 GPT 3.5 变种进行了实验,结果表明大型语言模型更适合进行翻译而不是规划,虽然这些模型能够利用常识知识和推理填补自然语言目标中缺失的细节,但在涉及到数字或物理推理的任务中,它们可能会出现失败,并且对所使用的提示信息很敏感。
Feb, 2023