Sep, 2022

基于 REINFORCE 推荐算法的用户满意度奖励塑造

TL;DR本研究提出了一种基于强化学习的推荐方法,通过联合训练一个策略网络和一个满意度插补网络,利用奖励设计来驱动用户满意度,以帮助解决评估、稀疏性和训练的挑战。