BriefGPT.xyz
Jul, 2019
收缩双重鲁棒离线评估
Doubly robust off-policy evaluation with shrinkage
HTML
PDF
Yi Su, Maria Dimakopoulou, Akshay Krishnamurthy, Miroslav Dudík
TL;DR
提出了一个基于重要性权重收缩的新框架,用于设计背景依赖赌博机的估算器,得到了三个估算器,包括一个新的收缩估算器和第一个用于组合行动集的收缩估算器,并在基准问题中进行了广泛的实验,表明该估算器高度适应性,并且通常优于现有的方法。
Abstract
We design a new family of
estimators
for
off-policy evaluation
in
contextual bandits
. Our
→