动态模型:用于视觉-运动控制的领域内动态预训练
该研究提出了一种模型无关的深度强化学习方法,利用少量的演示数据来协助强化学习代理。作者将该方法应用于机器人操作任务并训练了端到端的视觉-动力学策略,直接从RGB相机输入到关节速度。实验结果表明,与仅使用强化学习或模仿学习训练代理的结果相比,作者的强化和模仿代理取得了显著的性能提高。此外,这些训练有素的策略在模拟到现实世界的零样本情况下也能获得初步的成功。
Feb, 2018
本文提出了一种使用自监督对应关系用于提高视运动策略学习的泛化性能和样本效率的方法,并通过模仿学习演示了在挑战性的操作任务中使用少量演示即可实现广泛的硬件验证。
Sep, 2019
本文表明,来自真实世界图像的自监督视觉预训练对于从像素学习运动控制任务是有效的;为了加快像素学习的进展,本文还贡献了一套手工设计的基准任务,其中包括运动、场景和机器人等方面的变化。通过防冻度量的视觉编码器和强化学习,我们实现了与带标签、状态估计或专家演示相比高达80%的绝对成功率,有时甚至能与理论最好状态匹敌;还发现,来自YouTube或自我中心视频等野外图像,对于各种操作任务的视觉表现比ImageNet图像更好。
Mar, 2022
本文提出了一种基于相反动态模型和对比策略预训练的方法来为自动驾驶任务预训练策略模型,使用未经筛选的YouTube视频作为数据源,显著提高了强化学习和模仿学习等下游任务的准确性和效率。
Apr, 2022
研究了14个预先训练的视觉模型对3种不同类型的策略学习方法的影响,包括强化学习(RL)、通过行为克隆进行模仿学习(BC)和带有视觉奖励功能的模仿学习(VRF),结果表明预先训练的模型的有效性高度依赖于下游策略学习算法的选择。
Apr, 2023
本文提出了Crossway Diffusion方法,在扩展Diffusion-based policy学习过程中利用自我监督学习的目标,以提高视觉运动策略学习的效果,并在各种模拟和实际机器人任务中证明了其优势。
Jul, 2023
本研究通过使用预训练表示来改善策略学习中的范畴化概括能力,提出了一种新的双流架构SpawnNet,通过将预训练的多层表示融合到另一个网络中学习鲁棒策略,实验证明了在模仿学习环境中相较以往方法具有显著更好的范畴化概括。
Jul, 2023
通过对机器人的预训练数据集进行集中分析,我们发现常规视觉数据集对于视觉-运动表示学习是竞争力强的选择,此外,预训练数据集的图像分布比其规模更为重要,同时简单的正规化策略可以显著改善真实世界策略学习。
Oct, 2023
通过数据增强来解决在学习高维视觉观察中适应新环境及复杂视觉变化所面临的泛化问题,提出了学习控制感知掩码的方法以及通过预先训练的强化学习专家将知识传输给学生视觉动作策略来解决训练不稳定性问题。
Jan, 2024
在这篇论文中,我们提出了一种视觉-运动策略学习框架,该框架在给定任务的人类示范中对视频扩散模型进行微调。在测试阶段,我们生成了一个以新颖场景的图像为条件的任务执行示例,并直接使用这个合成的执行结果来控制机器人。我们的主要观点是,使用常用工具可以轻松地弥合人手和机器人操作者之间的具身隔阂。我们在四个复杂度不断增加的任务上评估了我们的方法,并证明利用互联网规模的生成模型使得学习策略可以比现有行为克隆方法实现更高程度的泛化。
Jun, 2024