ICMLJun, 2018

使用估计行为策略的重要性采样策略评估

TL;DR本文研究了马尔可夫决策过程中,利用重要性采样评估不同数据生成策略预期回报的问题。通过实验,我们发现使用估计的行为策略可降低离线策略评估的平均平方误差,尤其是在具有非马尔可夫性的情况下。