May, 2019

基于分布式强化学习的高效探索技术

TL;DR本论文提出的一种深度深度强化学习探索方法具有两个组成部分:有一个递减的时间表来抑制内在不确定性,一个探索奖励是从所学分布的上分位数中计算出来的,实验结果表明,我们的算法在 14 个 Atari 2600 游戏中有 12 个游戏取得了比 QR-DQN 更好的成绩,在难度较大的 3D 驾驶模拟器 (CARLA) 中,我们的算法安全奖励达到了近乎最优,比 QRDQN 快两倍。