Dec, 2018

基于对抗生成网络的强化学习推荐系统用户模型

TL;DR该论文提出了一种新颖的基于生成对抗网络的强化学习框架,以解决在推荐系统中无法明确定义环境奖励函数和动态环境的应用挑战,使用该框架开发了一个用户模型作为仿真环境,开发了一种新颖的 Cascading DQN 算法来获得一个组合推荐策略,实验证明这个生成对抗用户模型可以更好地解释用户行为,并且基于该模型的 RL 策略能够为用户带来更好的长期回报和系统的点击率。