Nov, 2016

使用无监督辅助任务的强化学习

TL;DR该论文介绍了一种深度强化学习代理,它不仅能够直接最大化累积奖励,在共同的表现下还能同时最大化许多其他伪奖励函数,该代理基于不受外部奖励影响的无监督学习得到共同的表现,并对外部奖励进行关注,可以快速适应实际任务,在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。