通过预训练和多任务微调掌握多模态机器人操作
这篇研究论文介绍了一种将自然语言引入模仿学习中的方法,可以让专家在提供动作演示的同时,提供自然语言的描述。通过融合语言、知觉和动作的关系,实现了更加精细的控制,降低了场景的模糊度。在七自由度机械臂控制任务上的模拟实验表明,此方法可有效学习自然语言条件下的机器人操作策略,并与其他方法相比做出了明显改进。
Oct, 2020
我们提出了一种统一的编码-解码模型,称为Embodied MultiModal Agent (EMMA),可以处理交互和具身任务,其中每个任务对目标完成做出贡献,取得了与类似模型相当的性能并在Dialog-guided Task Completion (DTC)中取得了新的最佳结果(36.81%的成功率)用于评估Alexa Arena中的对话引导代理。
Nov, 2023
通过引入新颖的机器人操作方法,利用多模态大型语言模型(MLLMs)的强大推理能力,增强操作的稳定性和泛化能力。我们采用fine-tuning方法,在保留MLLM的常识和推理能力的同时,为其提供操作能力。实验结果表明ManipLLM在模拟器和真实环境中均有出色表现。
Dec, 2023
该研究全面概述了大型语言模型(LLMs)和多模态LLMs在各种机器人任务中的整合,并提出了一种利用多模态GPT-4V结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集,我们的结果表明GPT-4V有效地提升了机器人在具身任务中的表现。对LLMs和多模态LLMs在各种机器人任务中的广泛调查和评估丰富了对以LLMs为中心的具身智能的理解,并提供了展望未来的关于人机环境交互的见解。
Jan, 2024
通过使用多模式语言模型从图像输入中提供自动化的偏好反馈来指导决策的研究,展示了一种能够理解机器人操纵任务中轨迹视频的多模式语言模型 CriticGPT,该模型能够提供分析和偏好反馈,并验证了所生成的偏好标签的有效性,实验评估表明其对新任务具有有效的泛化能力,并在 Meta-World 任务上的性能展示了 CriticGPT 的奖励模型能有效指导策略学习,超越了基于最新的预训练表示模型的奖励。
Feb, 2024
我们关注机器人操作中无监督的视觉-语言-行为映射,探索多模态变分自编码器在无监督机器人操作任务中的应用,并提出一种模型不变训练方法,成功提高模型在模拟环境中的性能,并对个体任务的挑战进行了系统评估,揭示了当前多模态变分自编码器在基于视觉和语言的无监督机器人运动轨迹学习中的潜在优势和限制。
Apr, 2024
通过引入一种全面的评估框架,该研究系统地研究了指令和输入在多模态模型的广义能力中的作用,考虑了体系结构设计、以及语言和视觉模态中输入扰动以及任务复杂性的增加,揭示了多模态模型对极端指令扰动的韧性以及对观察变化的脆弱性,关注过度拟合偶然相关性的问题。通过将此评估框架应用于当前基于Transformer的多模态模型的机器人操作任务中,发现了一些限制,并建议未来的进展应专注于体系结构和训练创新,更好地整合多模态输入,通过优先考虑对输入内容的敏感性而不是偶然相关性,提高模型的广义化能力。
Jul, 2024
本研究解决了机器人在多模态任务规范中的数据稀缺问题,采用单模态指令进行学习。通过 pretraining 强化跨模态对齐能力,并使用 Collapse 和 Corrupt 操作,成功弥补了多模态表示中的差距,使机器人能够在对齐的多模态潜在空间中精确执行任务。评估表明,该框架在超过130个任务和4000次评估中表现优越,有助于缓解机器人学习中的数据约束。
Oct, 2024