Oct, 2019

具有时延依赖收益的随机赌博机

TL;DR提出了一个非平稳随机 bandit 模型及其评估算法,对比了该算法和 UCB 方法的优越性,从而能够有效地解决音乐推荐中的问题。