May, 2019

度量空间中的高效无模型强化学习

TL;DR本文介绍了一种基于 Q-learning 的高效的无模型强化学习算法,利用一种自然的状态 - 动作空间度量扩展了先前仅针对离散状态 - 动作空间的 Q-learning 算法,无需使用黑盒规划预言机。