本文提出一种基于关系归纳偏见的新型插入式模块,可使代理程序在学习固定的多对象设置中学习操作任务,并在输入对象数量改变时零样本泛化,解决了前人方法因其复杂度而无法泛化的问题。
Jan, 2022
本文介绍了基于无模型视觉强化学习的变形物体操作问题,通过提出迭代的拾取 - 放置空间和只显式学习放置策略来加速学习,并使用 MVP 选择策略,此学习框架在变形物体操纵任务方面获得了比独立空间快一个数量级的学习,并使用领域随机化将策略转移到 PR2 机器人上,对布料和绳索覆盖任务进行了实验验证。
Oct, 2019
本文介绍了使用基于图形的关系结构从简单的任务中学习并实现复杂的机器人操作任务,使用了强化学习方法并在喂入少量数据的情况下超越现有的最先进方法,同时也实现了零样本泛化。
Dec, 2019
本文提出了一种实用于实际机器人任务 -- 如机器人操作 -- 的深度强化学习算法,并在无人监督的情况下使用自我监督的基于模型的方法来训练预测模型,通过选择指定像素、目标图像或图像分类器作为目标设定方法,探索实现前所未见的任务和物体的普遍泛化。
Dec, 2018
本文提出了一种方法来解决复杂开放环境下机器人操作的问题,该方法基于先前训练的通用视觉模型作为感知系统的对象先验,并引入了一个基于对象的注意机制来确定相关对象,通过少数轨迹或演示将这些对象纳入学习策略,使用强化学习可以学习多种操作任务。
Aug, 2017
本文提出了一种基于数据驱动的建模方法,利用深度生成模型学习目标定向的物体操作,采用视觉规划和视觉跟踪控制解决目标检测问题。
May, 2019
本文通过模仿学习的方式解决在复杂情况下通过学习实现物体操作技能的问题,提出了一种可以应用于各项任务的无先验奖励的泛化策略学习方法,并通过几个关键技术,包括生成式对抗自我模仿学习、不断完善的判别器和平衡专家池中的实例,显著提高了分类水平操作策略学习的效率和泛化能力。实验结果在 ManiSkill 基准测试中都有明显改善。
Mar, 2022
利用 GPU 模拟技术和模仿学习指导策略搜索以使强化学习培训可在高维机器人手表现复杂控制问题的领域中成为可能,最终演示了并行强化学习和模仿学习的互补优势和优秀的验证结果。
Dec, 2022
本文提出了一种新的机器人操作方法,该方法利用了物体本身的运动学习,通过使用物理模拟器中的对象运动策略生成辅助奖励,称为模拟运动演示奖励(SLDRs),该方法可以在不需要人类演示或昂贵成本的情况下,通过强化学习来掌握机器人操作技能,从而实现多物体堆放和非刚性物体操作等任务的更高成功率和更快学习。
该研究提出了使用基于物体的表征作为组成性生成世界模型所学习的模块化和结构化观察空间,以帮助自主代理发现和学习有用的技能,并进一步将这些技能组合起来解决复杂的组合任务。
Nov, 2020