EmbodiedGPT: 基于身体思维链的视觉-语言预训练
使用大型语言模型的知识来简化控制问题,而不是直接解决它,作者提出了Plan, Eliminate, and Track (PET) 框架,并在AlfWorld指令跟随基准测试中取得了显着的15%性能提升。
May, 2023
提出了一个学习机器人操纵任务高级认知能力的新框架,使用语言模型构建AlphaBlock数据集,自动采集综合高级多步文本计划和配对观察序列,使用多模式的闭环计划模型自回归生成计划,从而实现对机器人的精细操作。实验结果表明,该方法显著提高了成功率。
May, 2023
本文提出了一种利用多模态数据集进行物理约束的低水平嵌入式任务规划方法,并通过与 GPT-3.5 和 LLaVA 等方法进行对比实验,证明了该方法相比其他现有解决方案在普适的复杂环境中具有更高的成功率。
Jul, 2023
多模态大型语言模型(MLLMs)在具有出色推理和概括能力的大型语言模型(LLMs)基础上开辟了新的具身任务规划途径。我们引入了一项人类注释的基准测试EgoPlan-Bench,定量调查MLLMs在现实场景中作为具身任务规划器的潜力,并构建了一个指导调优数据集EgoPlan-IT,这些实验结果表明,通过EgoPlan-IT调优的模型不仅在我们的基准测试中显著提高了性能,还在模拟中有效地扮演了具身规划器的角色。
Dec, 2023
该研究全面概述了大型语言模型(LLMs)和多模态LLMs在各种机器人任务中的整合,并提出了一种利用多模态GPT-4V结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集,我们的结果表明GPT-4V有效地提升了机器人在具身任务中的表现。对LLMs和多模态LLMs在各种机器人任务中的广泛调查和评估丰富了对以LLMs为中心的具身智能的理解,并提供了展望未来的关于人机环境交互的见解。
Jan, 2024
通过在视觉语言行动模型的基础上引入具体问题和传感器观测,Embodied Chain-of-Thought Reasoning (ECoT)通过训练模型在推理计划、子任务、动作以及与视觉和运动相关的要素前,提高了机器人控制策略的性能和泛化能力。在没有额外机器人训练数据的情况下,ECoT相对于目前最强的开源机器人控制策略OpenVLA,显著提高绝对成功率28%,同时使人类更容易通过自然语言理解该策略的失败并进行纠正。
Jul, 2024
本研究解决了大型语言模型和视觉语言模型在需要同时进行规划和感知时,因融合多模态信息而导致表现不佳的问题。提出了一种基于单张环境图像的多智能体架构,利用常识知识进行自由形式域的处理,并引入新的全自动评估程序PG2S,以更好地评估规划质量。研究表明,该方法在使用ALFRED数据集时优于现有的KAS指标。
Aug, 2024
本研究解决了现有嵌入式人工智能在长远任务规划中的局限,提出了一种新颖的ReLEP框架,该框架能够将抽象指令细化为详细步骤并完成多样化的日常任务。通过使用经过微调的大型视觉语言模型和精心设计的技能库,ReLEP展示了在真实环境中执行长远嵌入式任务的能力,并且在与现有的最先进方法的比较中表现出更优的性能。
Sep, 2024
本研究针对大型多模态模型在真实环境中的感知、推理、规划和行动能力的不足,提出了Can-Do数据集,通过更复杂的场景评估具身规划能力。我们还提出了神经符号框架NeuroGround,以环境状态为基础生成计划,结合符号规划引擎增强模型产生的计划,实验结果显示该框架优于现有方法。
Sep, 2024