Mar, 2019

探索深度强化学习中的差异化特征

TL;DR基于线性近似 Q 值更新的分析方法,提出一种稳定的深度 Q 学习算法,不需要传统的技巧(如目标网络、自适应梯度优化器或使用多个 Q 函数)就能实现连续控制,并在 OpenAI Gym 的标准 MuJoCo 基准测试中表现良好。