MMAug, 2015

分布式深度 Q-Learning

TL;DR我们提出了一种分布式深度学习模型来直接从高维感知输入中学习控制策略,使用强化学习来评估未来奖励,并通过对 DistBelief 软件框架的适应来分布式地训练,实现了异步和扩展性。