Oct, 2023

一个通用的离线强化学习框架用于交互推荐

TL;DR该论文研究了在在线环境中无需探索的情况下,从已记录的反馈中学习互动推荐系统的问题,并提出了一种通用的离线强化学习框架用于推荐,可以通过最大化累积用户奖励来解决问题。为了更有效地进行离线学习,我们提出了五种方法来最小化记录策略和推荐策略之间的分布不匹配:支持约束、监督正则化、策略约束、双重约束和奖励外推。我们在两个公开的现实世界数据集上进行了广泛的实验,证明了所提出的方法在推荐方面相对于现有的监督学习和强化学习方法具有优越的性能。