ICLRFeb, 2021

基于回报的对比表示学习在强化学习中的应用

TL;DR本研究提出了新的辅助任务,通过回报信号,使得学到的表示区分具有不同回报的状态和动作对,从而可以更好地在 Atari 游戏和 DeepMind 控制套件等复杂任务中进行学习,并在与现有的辅助任务相结合时表现更好。