Jun, 2021

Slate 离策略评估的控制变量

TL;DR本文研究了具有多维动作,即石板的批量上下文强化学习的现实场景 —— 推荐系统和用户界面优化 —— 中的离线策略评估问题。通过控制变量,我们考虑了一类包括伪逆估计器(PI estimator)和(渐近地)自归一化 PI 估计器在内的无偏估计器,通过优化这一类得到的新估计量具有比 PI 和自归一化 PI 估计量更好的风险收敛性。真实世界的推荐数据和合成数据的实验验证了这些改进的实际效果。