Jan, 2020

表格式强化学习非渐近有效的离线策略评估

TL;DR该文研究了强化学习的离线策略估值问题,介绍了传统的加权重要性采样算法在时间跨度上的方差爆炸问题,提出了一种基于边缘化重要性抽样算法的新方法,并对其进行了改进,但该算法的均方误差下限仍然不能与 Cramer-Rao 下界达到同阶,且仅限于有限动作空间的情况。