Feb, 2021

Off-Policy 自然演员 - 评论算法的有限样本分析

TL;DR本文介绍一种自然演员 - 评论家算法的有限样本收敛保证,基于重要性采样的离线策略变体,并提出为评论家设计的 $Q$-trace 算法。