收缩双重鲁棒离线评估

Jul, 2019

Doubly robust off-policy evaluation with shrinkage

Yi Su, Maria Dimakopoulou, Akshay Krishnamurthy, Miroslav Dudík

TL;DR提出了一个基于重要性权重收缩的新框架，用于设计背景依赖赌博机的估算器，得到了三个估算器，包括一个新的收缩估算器和第一个用于组合行动集的收缩估算器，并在基准问题中进行了广泛的实验，表明该估算器高度适应性，并且通常优于现有的方法。

Abstract

We design a new family of estimators for off-policy evaluation in contextual bandits. Our →