Aug, 2023

基于随机奖励稳定化的模型无关强化学习在推荐系统中的应用

TL;DR基于无模型的强化学习推荐系统,通过引入两种随机奖励稳定化框架以替换直接的随机反馈,成功应对了用户在不同时间对同一项的随机反馈问题。