Apr, 2016

强化学习的高效离线策略评估

TL;DR本文提出了一种新的方法来预测在给定历史数据的情况下,加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合,提出一个基于双重稳健估计器扩展的新估计器,使得估计结果的均方误差通常比现有方法低几个数量级。