Dec, 2016

基于上下文的赌博机中最优的自适应离线评估

TL;DR本研究旨在研究在没有相应奖励模型的情况下,通过使用由另一政策收集的数据来估算目标政策的价值的,上下文Bandit模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的(不一定一致的)奖励模型来实现更好的偏差-方差平衡,从而在多个数据集上实现更好的表现。