Feb, 2016

跨多个数量级学习价值

TL;DR本文主要研究如何通过自适应标准化目标值来解决学习算法对函数尺度缩放的不变性问题,尤其是在价值反馈学习和Atari游戏中,该方法能够消除领域特定的启发式方法,提高整体表现。