Sep, 2019

从老虎机反馈中学习:现有技术综述

TL;DR本文综述了针对基于推荐系统的记录进行学习的基于不同离线策略估计器的几种方法,并比较了它们在 RecoGym 模拟环境中的实证表现。