BriefGPT.xyz
Mar, 2022
目标Q学习关于使用生成式Oracle求解有限MDPs的说明
A Note on Target Q-learning For Solving Finite MDPs with A Generative Oracle
HTML
PDF
Ziniu Li, Tian Xu, Yang Yu
TL;DR
本文研究了利用目标网络解决深度强化学习Q学习算法在非目标策略情况下发散的问题,使用生成式神经模型研究了其样本复杂度,发现目标学习算法的样本复杂度是以1-γ为主导的,并且证明了引入周期性目标Q函数网络不会牺牲样本复杂度。
Abstract
q-learning
with
function approximation
could diverge in the off-policy setting and the
target network
is a powerful technique to address t
→