AAAIApr, 2021

使用内禀动机学习目标条件策略的深度强化学习

TL;DR本文提出了一种新的无监督学习方法,名为具有内在动机的目标导向策略(GPIM)。通过将抽象级别的策略与目标条件策略联合学习,本方法在各种机器人任务中证明了其有效性和高效性,大大优于先前的技术。