Apr, 2021

基于解耦通用值函数的强化学习在物品推荐中的应用

TL;DR本文介绍基于强化学习在推荐系统中应用的挑战及其解决方法GoalRec,提出一种新型分离式通用价值函数,可以泛化到各种不同的目标,并根据高方差的环境动态和奖励信号进行分离。在一系列模拟和实际应用中,GoalRec显示出优越的实用性,解决了大规模RL-based推荐系统的重要挑战。