BriefGPT.xyz
Ask
alpha
关键词
asynchronous gradient descent
搜索结果 - 1
深度强化学习的异步方法
提出一种使用异步梯度下降法优化深度神经网络控制器的深度强化学习框架,演示了四种标准强化学习算法的异步变体,并表明并行 actor-learner 对训练具有稳定作用。其中最佳表现的方法,即 actor-critic 的异步变体,在 Atar
→
PDF
8 years ago
Prev
Next