Jul, 2019

收缩双重鲁棒离线评估

TL;DR提出了一个基于重要性权重收缩的新框架,用于设计背景依赖赌博机的估算器,得到了三个估算器,包括一个新的收缩估算器和第一个用于组合行动集的收缩估算器,并在基准问题中进行了广泛的实验,表明该估算器高度适应性,并且通常优于现有的方法。