LLaRA：提升视觉语言策略的机器人学习数据

Jun, 2024

LLaRA：提升视觉语言策略的机器人学习数据

LLaRA: Supercharging Robot Learning Data for Vision-Language Policy

Xiang Li, Cristina Mata, Jongwoo Park, Kumara Kahatapitiya, Yoo Sung Jang...

TL;DRLLaRA: 大型语言和机器人助理是一个框架，将机器人动作策略定义为对话，并在训练中通过辅助数据提供改进的响应；通过将视觉输入与文本提示进行处理，能够生成最优策略决策。

Abstract

large language models (LLMs) equipped with extensive world knowledge and strong reasoning skills can tackle diverse tasks across domains, often by posing them as conversation-style instruction-response pairs. In this paper, we propose LLaRA: Large Language and Robotics Assistant, a fra

large language models llara framework robot action policy vision language models robotics tasks

发现论文，激发创造

LLARVA: 视觉动作指令调整增强机器人学习

通过使用纯指令调整的 Large Multimodal Models（LMMs），我们引入了 LLARVA 模型，该模型通过使用结构化提示统一了一系列机器人学习任务、场景和环境，并且利用预测中间的 2D 表达，即 “视觉迹线”，进一步对齐了视觉和动作空间，使得模型在不同的机器人环境和配置中得到了较好的泛化性能。

Jun, 2024

大型语言模型用于具体任务的可拓展性策略

通过大型语言模型 (LLM) 以及强化学习技术，我们开发了一种名为 LLaRP 的方法，使得 LLM 可以作为具有推广性的策略应用于具体视觉任务中，能够忽略任务指令的复杂改写并生成新的最佳行为，在未见过的任务中达到了其他常见的学习基线或零样本 LLM 应用的 1.7 倍成功率，并发布了一个名为 “Language Rearrangement” 的新基准测试数据集，用于研究基于语言、多任务和具体化 AI 问题。

Oct, 2023

OpenVLA：一个开放源代码的视觉语言行动模型

通过使用互联网规模的视觉 - 语言数据和多样化的机器人演示进行预训练的大型模型，可以改变我们教授机器人新技能的方式：相对于从零开始训练新行为，我们可以对这种视觉 - 语言 - 动作（VLA）模型进行微调，以获得稳健、具有广泛适用性的视觉 - 动作策略。我们介绍了 OpenVLA，这是一个 7B 参数的开源 VLA，它在多样化的 970k 真实世界机器人演示数据集上进行了训练。OpenVLA 基于 Llama 2 语言模型和可视编码器，融合了 DINOv2 和 SigLIP 的预训练特征。通过增加数据多样性和新的模型组件，OpenVLA 在广义操纵方面表现出色，在 29 个任务和多个机器人实体上的绝对任务成功率上优于 RT-2-X（55B）等闭源模型 16.5%，并且参数数量仅为其七分之一。我们进一步展示了 OpenVLA 对于新环境的有效微调，在涉及多个对象和强大语言基础能力的多任务环境中，具有特别强大的泛化能力，且优于 Diffusion Policy 等基于从头开始的模仿学习方法 20.4%。此外，我们还探索了计算效率；作为额外贡献，我们表明 OpenVLA 可以通过现代低秩适应方法在消费级 GPU 上进行微调，并通过量化方式进行有效服务，而不会影响下游的成功率。最后，我们发布了模型检查点、微调笔记本以及基于 PyTorch 的代码库，支持在 Open X-Embodiment 数据集上规模化训练 VLA。

Jun, 2024

RT-2：视觉 - 语言 - 行动模型将网络知识转化为机器人控制

通过在互联网规模的数据上训练视觉语言模型，将其直接融入端到端的机器人控制中，提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法，在模型训练集中直接将行动表现为文本标记，将自然语言回答和机器人行动合并到同一个格式中，从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型（VLA），并以 RT-2 为例进行了实例化。广泛的评估结果表明，我们的方法可以得到性能优越的机器人策略，并使 RT-2 在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力，解释不在机器人训练数据中的命令（比如将物体放在特定的编号或图标上）的能力，以及对用户指令做出初步推理的能力（比如选择最小或最大的物体，或者离另一个物体最近的物体）。我们进一步说明了通过思维链式推理，RT-2 可以进行多阶段的语义推理，例如找到作为非正式锤子使用的物体（一块石头），或者适合疲劳人群的饮料类型（一种能量饮料）。

Jul, 2023

基于自然语言的装配技术发展

基于大型语言模型的全局控制策略结合了语言输入的解释和处理能力，为多样化和复杂的机器人操作丰富了控制机制。

Jun, 2024

利用大型语言模型的反馈加速机器人操控的强化学习

通过利用大型语言模型的及时反馈，Lafite-RL（语言代理反馈互动式强化学习）框架使强化学习智能体能够有效地学习机器人任务，实验结果表明，Lafite-RL 智能体在自然语言的简单提示设计下，通过大型语言模型的引导在学习效率和成功率方面优于基准模型，凸显了大型语言模型所提供的奖励的功效。

Nov, 2023

RLingua：利用大规模语言模型提高机器人操作中的强化学习样本效率

利用大型语言模型 (LLM) 的内部知识，提出一种名为 RLingua 的框架，以减少强化学习在机器人操作中的样本复杂性。

Mar, 2024

利用大型语言模型自动化并加快使用奖励机制的强化学习

我们提出了 LARL-RM 算法，利用自动机将高层知识编码到强化学习中，以加速强化学习过程，同时使用大型语言模型通过提示工程来获取高层领域特定知识，避免了需要专家编码自动机的问题，且能够在无需专家指导和监督下进行全闭环强化学习，我们还展示了算法收敛到最优策略的理论保证，并通过两个案例研究实现了 30% 的加速收敛。

Feb, 2024

基于视觉语言模型的指令增强机器人技能习得

本论文介绍了一种名为 DIAL 的方法，利用半监督的语言标签，结合 CLIP 的语义理解，将知识传播到大型未标记的数据集中，并在增强的数据集上训练语言条件下的策略，从而使模仿学习策略获得新的能力并推广到原始数据集中未见过的 60 个新指令。

Nov, 2022

基于基础模型的人机协同持续机器人学习

通过使用基于大型语言模型的规划器，我们克服了当前固定技能集的限制，提出了一种用于数据和时间高效教授机器人这些技能的方法，该系统可以重复使用新习得的技能，展示了开放世界和终身学习的潜力。

Sep, 2023