来自视频的潜在动作预训练
本文介绍了一种通过生成式预训练学习得到的视觉表示,用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型,并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的架构,该架构在预训练的无动作预测模型的基础上堆叠了一个动作条件潜在预测模型,以更好地实现探索。同时也提出了基于视频的内在激励奖励机制,利用预训练表示的优势,有效提升了数据利用率和最终权能的完成度。
Mar, 2022
本论文介绍了一种名为DIAL的方法,利用半监督的语言标签,结合CLIP的语义理解,将知识传播到大型未标记的数据集中,并在增强的数据集上训练语言条件下的策略,从而使模仿学习策略获得新的能力并推广到原始数据集中未见过的60个新指令。
Nov, 2022
通过从无动作演示中推断潜在动作,我们介绍了一种名为LAPO的方法,它可以有效地预训练深度强化学习模型,并且可以快速微调以实现专家级表现。这为在网上大量的无动作演示中预训练强大而通用的强化学习模型提供了重要基础。
Dec, 2023
通过大规模视频生成预训练,我们展示了基于语言条件的视觉机器人操作对于生成预训练模型的有效性扩展,提供了新的证据,显示出在多任务视觉机器人操作中,经过视频生成预训练的统一GPT风格转换器具有显著的泛化能力。
Dec, 2023
我们关注机器人操作中无监督的视觉-语言-行为映射,探索多模态变分自编码器在无监督机器人操作任务中的应用,并提出一种模型不变训练方法,成功提高模型在模拟环境中的性能,并对个体任务的挑战进行了系统评估,揭示了当前多模态变分自编码器在基于视觉和语言的无监督机器人运动轨迹学习中的潜在优势和限制。
Apr, 2024
该研究综述了在强化学习和机器人领域中学习视频的方法,重点关注能够扩展到大规模互联网视频数据集,并从中提取关于世界动力学和人类行为的基础知识的方法。该综述介绍了学习视频的基本概念、相关挑战以及应对方法,并讨论了学习视频的机器人学习方法和数据集等方面的问题和机会。
Apr, 2024
通过使用互联网规模的视觉-语言数据和多样化的机器人演示进行预训练的大型模型,可以改变我们教授机器人新技能的方式:相对于从零开始训练新行为,我们可以对这种视觉-语言-动作(VLA)模型进行微调,以获得稳健、具有广泛适用性的视觉-动作策略。我们介绍了OpenVLA,这是一个7B参数的开源VLA,它在多样化的970k真实世界机器人演示数据集上进行了训练。OpenVLA基于Llama 2语言模型和可视编码器,融合了DINOv2和SigLIP的预训练特征。通过增加数据多样性和新的模型组件,OpenVLA在广义操纵方面表现出色,在29个任务和多个机器人实体上的绝对任务成功率上优于RT-2-X(55B)等闭源模型16.5%,并且参数数量仅为其七分之一。我们进一步展示了OpenVLA对于新环境的有效微调,在涉及多个对象和强大语言基础能力的多任务环境中,具有特别强大的泛化能力,且优于Diffusion Policy等基于从头开始的模仿学习方法20.4%。此外,我们还探索了计算效率;作为额外贡献,我们表明OpenVLA可以通过现代低秩适应方法在消费级GPU上进行微调,并通过量化方式进行有效服务,而不会影响下游的成功率。最后,我们发布了模型检查点、微调笔记本以及基于PyTorch的代码库,支持在Open X-Embodiment数据集上规模化训练VLA。
Jun, 2024
本研究解决了机器人学习中缺乏大规模领域内数据集的问题。我们提出了一种名为操作中心化表示(MCR)的框架,通过结合视觉特征和任务动态信息,显著提高了机器人操作任务的成功率。实验证明,MCR在模拟和现实任务中的性能提高超过14%和76%,展示了其在高效学习中的潜在影响。
Oct, 2024
本研究解决了机器人学习中缺乏大规模领域特定数据集的问题。提出了一种新的操作中心表示(MCR)框架,通过捕捉操作任务的视觉特征和动态信息来提高表现,实验证明MCR在多个模拟领域的任务中表现超越基线方法14.8%,并在现实世界任务中提升性能76.9%。
Oct, 2024