Nov, 2016

Q-Prop: 基于离线策略评估器的高效采样策略梯度

TL;DR本篇论文提出了Q-Prop,一种结合策略梯度和离线强化学习的深度强化学习方法,该方法具有高效和稳定的特性,并在OpenAI Gym's MuJoCo连续控制环境上取得了比现有算法更好的性能。