Jan, 2019

强化学习最优表示的几何视角

TL;DR通过基于值函数空间的几何特性,提出了一种新的表征学习的视角,证明了值函数作为辅助任务的实用性并将敌对价值函数作为其自然候选。在四间房间领域的实验中,展示了敌对价值函数作为辅助任务的有用性和特点。