该研究提出了一种模型无关的深度强化学习方法,利用少量的演示数据来协助强化学习代理。作者将该方法应用于机器人操作任务并训练了端到端的视觉-动力学策略,直接从RGB相机输入到关节速度。实验结果表明,与仅使用强化学习或模仿学习训练代理的结果相比,作者的强化和模仿代理取得了显著的性能提高。此外,这些训练有素的策略在模拟到现实世界的零样本情况下也能获得初步的成功。
Feb, 2018
本文提出使用深度强化学习作为一种可扩展的解决方案,来掌握带有多指手的接触丰富行为,并展示使用模型自由的深度强化学习算法在现实世界中可以学习各种复杂的行为,同时可以通过少量的人类演示来加速学习。
Oct, 2018
本论文提出了一种通过强化学习进行增量式fine-tuning的方法,可以有效地将图像为基础的机器人操作策略适应到新的环境、物体和感知中,在不到数据学习任务的0.2%的情况下实现适应,这种方式可以大幅提高任务的性能表现,并且在连续学习场景下仍保持一致稳定。
Apr, 2020
本研究发现相较于全局第三人称视角,手心视角可以提高物理操作的训练效率和泛化能力,并适用于各种算法、实验环境和分布转变。
Mar, 2022
提出了一种基于感知的模型强化学习系统 SAM-RL,利用可微分的基于物理学的模拟和渲染自动更新模型,并通过不同的视角监测任务进程以提高样本效率,在三个机器人操作任务中进行了实际应用并证明了其有效性。
Oct, 2022
利用演示可以显著提高模型学习效率,在这项工作中,我们确定了利用演示进行模型学习的关键因素,即策略预训练,有针对性的探索和演示数据的过采样,这三个阶段构成了我们的基于模型的RL框架。
Dec, 2022
本文提出了一种基于视觉的程序自由编程的方法,利用强化学习实现复杂多指手势下的实物操作,无需手动建模或奖励工程。
通过提出Universal Visual Decomposer (UVD)作为一种针对视觉长时程操作的通用任务分解器,该方法基于预训练的视觉表示,通过检测嵌入空间中的相位变化来发现子目标,并在零附加训练成本的情况下在标准视觉运动策略训练上有效提取视频中的视觉子目标,进而在未知任务上展示了显著的组合泛化性能,并且可以用于构建基于目标的奖励塑形以加速强化学习中的时间扩展探索。
Oct, 2023
在这篇论文中,我们提出了一种视觉-运动策略学习框架,该框架在给定任务的人类示范中对视频扩散模型进行微调。在测试阶段,我们生成了一个以新颖场景的图像为条件的任务执行示例,并直接使用这个合成的执行结果来控制机器人。我们的主要观点是,使用常用工具可以轻松地弥合人手和机器人操作者之间的具身隔阂。我们在四个复杂度不断增加的任务上评估了我们的方法,并证明利用互联网规模的生成模型使得学习策略可以比现有行为克隆方法实现更高程度的泛化。
Jun, 2024
利用视觉语言模型(VLMs)定义的密集奖励,增强了自主强化学习的采样效率,并能够在在线微调步骤中成功完成自然语言描述的真实世界操纵任务。
Jul, 2024