Oct, 2019

度量空间中的情节式强化学习自适应离散化

TL;DR提出了一种基于自适应数据驱动离散化的$Q$-学习策略的高效算法,可以用于大型(可能是连续的)状态-动作空间的无模型经验强化学习。