AAAISep, 2018

基于 Bandit 反馈的高效反事实学习

TL;DR本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式,我们的估计器在广告设计方面得到了应用,证明了我们对标准估计器的方差降低是有效的。