AAAIApr, 2021
使用内禀动机学习目标条件策略的深度强化学习
Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep Reinforcement Learning
Jinxin Liu, Donglin Wang, Qiangxing Tian, Zhengyu Chen
TL;DR本文提出了一种新的无监督学习方法,名为具有内在动机的目标导向策略(GPIM)。通过将抽象级别的策略与目标条件策略联合学习,本方法在各种机器人任务中证明了其有效性和高效性,大大优于先前的技术。