Mar, 2022

目标Q学习关于使用生成式Oracle求解有限MDPs的说明

TL;DR本文研究了利用目标网络解决深度强化学习Q学习算法在非目标策略情况下发散的问题,使用生成式神经模型研究了其样本复杂度,发现目标学习算法的样本复杂度是以1-γ为主导的,并且证明了引入周期性目标Q函数网络不会牺牲样本复杂度。