Jun, 2021
通过自适应加权利用来自上下文 Bandits 的数据进行离线策略评估
Off-Policy Evaluation via Adaptive Weighting with Data from Contextual Bandits
Ruohan Zhan, Vitor Hadad, David A. Hirshberg, Susan Athey
TL;DR本文通过自适应加权控制方差,改进了重复鲁棒估计器,并且使用合成数据和公开基准测试提供了经验证据,相较于现有方案,我们的估计器具有更高的精确性和推论属性。