AAAINov, 2018

在异步深度强化学习中使用蒙特卡罗树搜索作为演示器

TL;DR本文介绍了一种新的深度强化学习方法 Asynchronous Advantage Actor-Critic (A3C-TP),并提出一种新的框架,将规划算法和异步分布式深度强化学习方法相结合,相对于传统方法,提高了学习速度和收敛策略的能力。