SIGIRJun, 2020

自监督强化学习用于推荐系统

TL;DR本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足,为仍处于离线状态的推荐者提供强大的梯度信号支持,其中包括两个输出层;一个用于自我监督,另一个用于强化学习,从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。