Apr, 2022

强化学习入门

TL;DR本文提出了 JSRL 算法,该算法通过使用先导策略(guide-policy)和探索策略(exploration-policy)来解决机器人任务,从而实现了通过离线数据、演示或现有策略来初始化RL策略,并能够兼容任何RL方法。通过实现,我们展示了JSRL 能够在小数据时代优于现有的模仿和强化学习算法,并且我们提供了JSRL样本复杂性的上限,并证明了在有了先导策略的情形下,可以将传统的样本复杂性从指数级降至多项式。