ICLRMar, 2020

无限时间步强化学习的黑盒离线评估

TL;DR本文提出了一种基于 Reproducing Kernel Hilbert Spaces(RKHS)的新估计器,用于解决长远时间内的 off-policy 估计问题,其不需要对行为策略的知识或基于其改进的数据进行抽样,并提出了一种可以消除当前做法局限性的解决方案。