May, 2019

低切换成本可证明高效的 Q 学习

TL;DR本研究旨在探究具有有限自适应性的 PAC-MDP 算法,我们提出了一种以本地切换成本为度量标准的 Q-Learning with UCB2 exploration 算法,可在 H 步奖励 MDP 中实现次线性遗憾,适用于医学领域等现实应用场景。