ICMLMay, 2019

学习新任务的策略

TL;DR本文提出一种强化学习算法,通过自编码器将已发现策略的状态序列进行度量,以此产生新的策略,同时利用两个目标的策略梯度算法在策略更新中权衡任务奖励和新颖度奖励,最终得到一些解决特定任务和具有差异化行动序列的策略,并展示该方法在迷宫导航,机械臂和蹦跳机器人的运动任务以及对抗性任务中的有效性。