Jul, 2024

ROLeR: 离线强化学习中的有效奖励塑形在推荐系统中的应用

TL;DR通过在线推荐系统中非参数奖励塑造方法和更具代表性的不确定性惩罚设计,提出了一种新颖的基于模型的离线强化学习方法,ROLeR,用于推荐系统中的奖励和不确定性估计,并通过四个基准数据集上的广泛实验验证了其在性能方面的表现。