BriefGPT.xyz
Dec, 2016
基于上下文的赌博机中最优的自适应离线评估
Optimal and Adaptive Off-policy Evaluation in Contextual Bandits
HTML
PDF
Yu-Xiang Wang, Alekh Agarwal, Miroslav Dudik
TL;DR
本研究旨在研究在没有相应奖励模型的情况下,通过使用由另一政策收集的数据来估算目标政策的价值的,上下文Bandit模型下的离线政策评估问题。所提出的 SWITCH estimator 可以使用现有的(不一定一致的)奖励模型来实现更好的偏差-方差平衡,从而在多个数据集上实现更好的表现。
Abstract
We consider the problem of
off-policy evaluation
---estimating the value of a target policy using data collected by another policy---under the contextual bandit model. We establish a minimax lower bound on the
mean squar
→