Aug, 2019

马尔科夫决策过程中的双重强化学习,用于高效的离线策略评估

TL;DR这篇论文讲述了在马尔科夫决策过程中 (off-policy evaluation) 基于无记忆存储的状态、行动和奖励的情况下,使用交叉折叠法来计算 $q$-functions 和边际密度比率的双重强化学习 (DRL) 的有效性研究。研究表明,在第四次方根率下估算两个因素时,DRL 具有高效性,并且当仅一个因素一致时也具有双重正确性。