AlphaBlock：机器人操纵中视觉语言推理的具身微调

May, 2023

AlphaBlock：机器人操纵中视觉语言推理的具身微调

AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation

Chuhao Jin, Wenhui Tan, Jiange Yang, Bei Liu, Ruihua Song...

TL;DR提出了一个学习机器人操纵任务高级认知能力的新框架，使用语言模型构建AlphaBlock数据集，自动采集综合高级多步文本计划和配对观察序列，使用多模式的闭环计划模型自回归生成计划，从而实现对机器人的精细操作。实验结果表明，该方法显著提高了成功率。

Abstract

We propose a novel framework for learning high-level cognitive capabilities in robot manipulation tasks, such as making a smiley face using building blocks. These tasks often involve complex →

发现论文，激发创造

交互式机器人操作的混合组合推理方法

本文介绍了一种神经符号(混合)组合推理模型，以将语言引导的视觉推理与机器人操作相结合。该模型通过使用共享的原始技能库以任务非特定的方式处理所有情况。通过语言解析器将输入查询映射为由这些原语组成的可执行程序取决于上下文。结果表明，该方法达到了非常高的准确性，同时可以进行少量的视觉微调，从而实现了真实场景的可转移性。

Oct, 2022

VIMA: 多模态提示的通用机器人操作

使用多模态提示设计了一个基于转换器的通用机器人代理(VIMA)，可以表达多种机器人操作任务，且在新颖的零激励泛化情况下优于先前的状态最优方法。

Oct, 2022

利用语义想象经验扩展机器人学习

该研究提出一种基于文本至图像转换的数据扩充方法，命名为ROSIE，通过在现有的机器人操作数据集上应用文本引导扩充数据的方法，我们可以在新的场景和任务中实现更好的机器人操作性能和鲁棒性。

Feb, 2023

EmbodiedGPT: 基于身体思维链的视觉-语言预训练

介绍了 EmbodiedGPT，一种多模式基础模型，用于具有多模式理解和执行能力的具体智能体，可在物理环境中计划和执行动作序列，从而显着提高了具体控制任务的成功率。

May, 2023

VoxPoser：使用语言模型构建可组合的三维价值地图，实现机器人操作

使用大型语言模型综合视觉-语言模型，生成适用于各种机器人操作的闭环轨迹。

Jul, 2023

通过预训练和多任务微调掌握多模态机器人操作

通过引入一个有效的框架，从多任务的专家轨迹中学习使用多模式提示进行机器人操作，我们在VIMA-BENCH上评估了方法的功效，并建立了一个新的最先进水平（成功率提高了10%）。此外，我们还展示了我们的模型具有显著的情境学习能力。

Oct, 2023

ManipLLM: 对象为中心的机器人操作的具身多模态大规模语言模型

通过引入新颖的机器人操作方法，利用多模态大型语言模型（MLLMs）的强大推理能力，增强操作的稳定性和泛化能力。我们采用fine-tuning方法，在保留MLLM的常识和推理能力的同时，为其提供操作能力。实验结果表明ManipLLM在模拟器和真实环境中均有出色表现。

Dec, 2023

大型语言模型在机器人领域的应用：机遇、挑战与展望

该研究全面概述了大型语言模型（LLMs）和多模态LLMs在各种机器人任务中的整合，并提出了一种利用多模态GPT-4V结合自然语言指令和机器人视觉感知增强具身任务规划的框架。基于多样化的数据集，我们的结果表明GPT-4V有效地提升了机器人在具身任务中的表现。对LLMs和多模态LLMs在各种机器人任务中的广泛调查和评估丰富了对以LLMs为中心的具身智能的理解，并提供了展望未来的关于人机环境交互的见解。

Jan, 2024

自然VLM：利用细粒度自然语言进行支配引导的视觉操作

通过提出一个包含15个不同操纵任务的综合基准测试，该论文引入了一个以人类语言指令为基础的家庭助理机器人感知和操作多种3D物体的重大挑战，并通过建立一个新的学习框架逐步完成操纵任务。

Mar, 2024

机器人控制通过体现链式思维推理

通过在视觉语言行动模型的基础上引入具体问题和传感器观测，Embodied Chain-of-Thought Reasoning (ECoT)通过训练模型在推理计划、子任务、动作以及与视觉和运动相关的要素前，提高了机器人控制策略的性能和泛化能力。在没有额外机器人训练数据的情况下，ECoT相对于目前最强的开源机器人控制策略OpenVLA，显著提高绝对成功率28%，同时使人类更容易通过自然语言理解该策略的失败并进行纠正。

Jul, 2024