Jun, 2019

基于边际化重要性采样的强化学习最优离线评估

TL;DR本研究提出了一种基于较小方差的边缘重要性抽样(MIS)的算法,用以解决RL中long horizon MDP的Off-policy evaluation(OPE)问题,并表现出在多个环境中的良好表现。