May, 2019

度量空间中的高效无模型强化学习

TL;DR本文介绍了一种基于Q-learning的高效的无模型强化学习算法,利用一种自然的状态-动作空间度量扩展了先前仅针对离散状态-动作空间的Q-learning算法,无需使用黑盒规划预言机。