Jun, 2021

通过自适应加权利用来自上下文 Bandits 的数据进行离线策略评估

TL;DR本文通过自适应加权控制方差,改进了重复鲁棒估计器,并且使用合成数据和公开基准测试提供了经验证据,相较于现有方案,我们的估计器具有更高的精确性和推论属性。