May, 2016

基于非当前策略的推荐策略评估

TL;DR本文研究了基于上下文的推荐策略(例如排名)的评估方法,在组合赌博技术的基础上引入了一种新的实用估计量,该方法可以使用已记录的数据估计政策的绩效,经过全面的实证评估,我们的估计器在多种设置下都很准确,包括在学习排序任务中作为子程序,我们导出了我们的估计器无偏的条件,这些条件比之前的推荐评估启发式要弱,并在实验中比参数方法具有更小的偏差,即使这些条件被违反。最后,我们的理论和实验也表明,与一般的无偏估计相比,所需的数据量呈指数级节约。