Dec, 2022

具有通用数据生成策略的反事实学习

TL;DR本文提出了用于处理全支撑和有缺陷支撑的日志策略,并证明其在样本量增加时预测收敛于反事实策略的真实表现的 off-policy evaluation 方法,并将其应用于优化在线平台的 coupon targeting policies。