Jun, 2019

基于边际化重要性采样的强化学习最优离线评估

TL;DR本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法,用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题,并表现出在多个环境中的良好表现。