Dec, 2015

大规模离散动作空间下的深度强化学习

TL;DR本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法,将大量离散行动嵌入到连续空间中,从而实现对大规模学习问题的解决。