Sep, 2023

REBOOT:重用数据用于高效的实际情境灵巧操纵

TL;DR我们介绍了一种用于学习灵巧操作技能的高效系统,通过整合最近在样本有效强化学习和重放缓冲引导方面的进展,利用来自不同任务或物体的数据作为训练新任务的起点,显著提高学习效率,同时通过基于模仿的拾取策略和学习奖励函数,消除了手动重置和奖励工程的需求,并在四指机械手上的真实环境中展示了重用先前数据作为重放缓冲初始化的好处,例如在真实世界中快速获得复杂操作技能。