LLaRA:提升视觉语言策略的机器人学习数据
通过使用纯指令调整的 Large Multimodal Models(LMMs),我们引入了 LLARVA 模型,该模型通过使用结构化提示统一了一系列机器人学习任务、场景和环境,并且利用预测中间的 2D 表达,即 “视觉迹线”,进一步对齐了视觉和动作空间,使得模型在不同的机器人环境和配置中得到了较好的泛化性能。
Jun, 2024
通过大型语言模型 (LLM) 以及强化学习技术,我们开发了一种名为 LLaRP 的方法,使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中,能够忽略任务指令的复杂改写并生成新的最佳行为,在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率,并发布了一个名为 “Language Rearrangement” 的新基准测试数据集,用于研究基于语言、多任务和具体化 AI 问题。
Oct, 2023
通过使用互联网规模的视觉 - 语言数据和多样化的机器人演示进行预训练的大型模型,可以改变我们教授机器人新技能的方式:相对于从零开始训练新行为,我们可以对这种视觉 - 语言 - 动作(VLA)模型进行微调,以获得稳健、具有广泛适用性的视觉 - 动作策略。我们介绍了 OpenVLA,这是一个 7B 参数的开源 VLA,它在多样化的 970k 真实世界机器人演示数据集上进行了训练。OpenVLA 基于 Llama 2 语言模型和可视编码器,融合了 DINOv2 和 SigLIP 的预训练特征。通过增加数据多样性和新的模型组件,OpenVLA 在广义操纵方面表现出色,在 29 个任务和多个机器人实体上的绝对任务成功率上优于 RT-2-X(55B)等闭源模型 16.5%,并且参数数量仅为其七分之一。我们进一步展示了 OpenVLA 对于新环境的有效微调,在涉及多个对象和强大语言基础能力的多任务环境中,具有特别强大的泛化能力,且优于 Diffusion Policy 等基于从头开始的模仿学习方法 20.4%。此外,我们还探索了计算效率;作为额外贡献,我们表明 OpenVLA 可以通过现代低秩适应方法在消费级 GPU 上进行微调,并通过量化方式进行有效服务,而不会影响下游的成功率。最后,我们发布了模型检查点、微调笔记本以及基于 PyTorch 的代码库,支持在 Open X-Embodiment 数据集上规模化训练 VLA。
Jun, 2024
通过在互联网规模的数据上训练视觉语言模型,将其直接融入端到端的机器人控制中,提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法,在模型训练集中直接将行动表现为文本标记,将自然语言回答和机器人行动合并到同一个格式中,从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型(VLA),并以 RT-2 为例进行了实例化。广泛的评估结果表明,我们的方法可以得到性能优越的机器人策略,并使 RT-2 在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力,解释不在机器人训练数据中的命令(比如将物体放在特定的编号或图标上)的能力,以及对用户指令做出初步推理的能力(比如选择最小或最大的物体,或者离另一个物体最近的物体)。我们进一步说明了通过思维链式推理,RT-2 可以进行多阶段的语义推理,例如找到作为非正式锤子使用的物体(一块石头),或者适合疲劳人群的饮料类型(一种能量饮料)。
Jul, 2023
通过利用大型语言模型的及时反馈,Lafite-RL(语言代理反馈互动式强化学习)框架使强化学习智能体能够有效地学习机器人任务,实验结果表明,Lafite-RL 智能体在自然语言的简单提示设计下,通过大型语言模型的引导在学习效率和成功率方面优于基准模型,凸显了大型语言模型所提供的奖励的功效。
Nov, 2023
利用大型语言模型 (LLM) 的内部知识,提出一种名为 RLingua 的框架,以减少强化学习在机器人操作中的样本复杂性。
Mar, 2024
我们提出了 LARL-RM 算法,利用自动机将高层知识编码到强化学习中,以加速强化学习过程,同时使用大型语言模型通过提示工程来获取高层领域特定知识,避免了需要专家编码自动机的问题,且能够在无需专家指导和监督下进行全闭环强化学习,我们还展示了算法收敛到最优策略的理论保证,并通过两个案例研究实现了 30% 的加速收敛。
Feb, 2024
本论文介绍了一种名为 DIAL 的方法,利用半监督的语言标签,结合 CLIP 的语义理解,将知识传播到大型未标记的数据集中,并在增强的数据集上训练语言条件下的策略,从而使模仿学习策略获得新的能力并推广到原始数据集中未见过的 60 个新指令。
Nov, 2022
通过使用基于大型语言模型的规划器,我们克服了当前固定技能集的限制,提出了一种用于数据和时间高效教授机器人这些技能的方法,该系统可以重复使用新习得的技能,展示了开放世界和终身学习的潜力。
Sep, 2023