WSDMNov, 2021

监督增强演员 - 评论家算法用于推荐系统

TL;DR本研究提出了一种负采样策略,称为 Supervised Negative Q-learning,用于强化学习组件的训练,并将其与监督式的序列学习相结合,从而解决了强化学习在推荐系统中应用时遇到的问题。实验表明,此方法在两个真实数据集上的表现优于现有的监督式方法和自我监督式的强化学习方法。