跨越语言、视觉和行动：多模态VAEs在机器人操作任务中的应用

Apr, 2024

跨越语言、视觉和行动：多模态VAEs在机器人操作任务中的应用

Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks

Gabriela Sejnova, Michal Vavrecka, Karla Stepanova

TL;DR我们关注机器人操作中无监督的视觉-语言-行为映射，探索多模态变分自编码器在无监督机器人操作任务中的应用，并提出一种模型不变训练方法，成功提高模型在模拟环境中的性能，并对个体任务的挑战进行了系统评估，揭示了当前多模态变分自编码器在基于视觉和语言的无监督机器人运动轨迹学习中的潜在优势和限制。

Abstract

In this work, we focus on unsupervised vision-language-action mapping in the area of robotic manipulation. Recently, multiple approaches employing pre-trained large language and vision models have been proposed f

发现论文，激发创造

深度多模态嵌入：使用点云、语言和轨迹操纵新颖物体

本文介绍了一种算法，通过深度神经网络学习将点云、自然语言和操作轨迹数据嵌入到共享的嵌入空间，并应用于机器人操作中，取得了较高的精度和推理时间改善。

Sep, 2015

VIMA: 多模态提示的通用机器人操作

使用多模态提示设计了一个基于转换器的通用机器人代理(VIMA)，可以表达多种机器人操作任务，且在新颖的零激励泛化情况下优于先前的状态最优方法。

Oct, 2022

基于视觉语言模型的指令增强机器人技能习得

本论文介绍了一种名为DIAL的方法，利用半监督的语言标签，结合CLIP的语义理解，将知识传播到大型未标记的数据集中，并在增强的数据集上训练语言条件下的策略，从而使模仿学习策略获得新的能力并推广到原始数据集中未见过的60个新指令。

Nov, 2022

VoxPoser：使用语言模型构建可组合的三维价值地图，实现机器人操作

使用大型语言模型综合视觉-语言模型，生成适用于各种机器人操作的闭环轨迹。

Jul, 2023

通过预训练和多任务微调掌握多模态机器人操作

通过引入一个有效的框架，从多任务的专家轨迹中学习使用多模式提示进行机器人操作，我们在VIMA-BENCH上评估了方法的功效，并建立了一个新的最先进水平（成功率提高了10%）。此外，我们还展示了我们的模型具有显著的情境学习能力。

Oct, 2023

视觉语言基础模型作为有效的机器人模仿者

通过对开放源代码的视觉-语言模型进行简单微调，RoboFlamingo构建了一个简单而新颖的视觉-语言操控框架，并利用单步视觉-语言理解的预训练模型、显式策略推测历史信息，通过模仿学习在以语言为条件的操纵数据集上微调。通过在基准测试上超过最先进的性能，表明RoboFlamingo能够有效并具有竞争力地将VLM适应到机器人控制中，为机器人操作提供了一种具有潜力的经济高效和易于使用的解决方案。

Nov, 2023

视觉语言行为模型在具身人工智能中的调查

综合调查了深度学习、多模态模型、视觉-语言-动作模型、具身人工智能的快速发展。

May, 2024

RoboUniView: 统一视角表征的视觉语言模型用于机器人操作

利用视觉语言模型（VLMs）进行机器人操纵的研究提出了一种新的范式，旨在增强模型对新对象和指令的推广能力。为解决摄像机规格和安装位置的变化带来的性能差异，该研究提出了RoboUniView方法，该方法从多个视角学习统一的视图表示，并从该表示中得出操纵机器人的动作。该统一的视图表示更准确地反映了物理世界，不受机器人平台摄像机参数的限制，并在CALVIN基准测试中获得了最先进的性能，将成功率从88.7％提高到96.2％。此外，该模型还表现出卓越的适应性和灵活性：它在未知摄像机参数下保持高性能，可以利用具有不同摄像机参数的多个数据集，并能够在数据集之间进行联合多任务学习。研究代码已提供以供重新实现。

Jun, 2024

来自视频的潜在动作预训练

本研究解决了现有视觉-语言-动作模型依赖于人工标签的问题，提出了一种从无标签互联网视频中学习的潜在动作预训练方法（LAPA）。该方法通过训练动作量化模型学习离散潜在动作，并在小规模机器人操作数据上微调模型，实验证明其在实际操作任务中显著优于现有技术，展现了利用网络规模数据进行机器人基础模型训练的潜力。

Oct, 2024

从信息论角度分析变分自编码器中的多模态融合

本研究解决了机器人系统在与现实世界互动时如何稳健地整合多模态信息的问题。我们采用变分自编码器（VAE）架构，并引入信息论度量，以分析不同模态在数据重构中的重要性。研究发现，不同模态的融合显著影响了输入数据的重构效果，提升了机器人的控制能力。

Nov, 2024