Aug, 2019

马尔科夫决策过程中的双重强化学习,用于高效的离线策略评估

TL;DR这篇论文讲述了在马尔科夫决策过程中(off-policy evaluation)基于无记忆存储的状态、行动和奖励的情况下,使用交叉折叠法来计算$q$-functions和边际密度比率的双重强化学习(DRL)的有效性研究。研究表明,在第四次方根率下估算两个因素时,DRL具有高效性,并且当仅一个因素一致时也具有双重正确性。