Nov, 2020

离线学习:基于演示和无标签经验的学习

TL;DR本研究提出了一种名为 ORIL 的方法,用于数据驱动的离线机器人学习。该方法结合了观察数据和未标记的数据以及奖励信号,通过增强学习来训练机器人,相对于传统的基于行为克隆的方法,它能更好地利用未标记的经验数据,提高训练的效果。