Dec, 2018

NADPEx:一种适用于深度强化学习的基于策略的时间一致性探索方法

TL;DR本文提出了一种新的基于神经元随机舍弃的强化学习策略模型,即神经元自适应随机舍弃策略模型,用于解决稀疏奖励问题,相比其他 naive exploration 和 parameter noise 方法,在标准 mujoco 基准测试中具有同样甚至更快的收敛速度和表现。