AAAIFeb, 2020

基于上下文多臂赌博机的时变用户兴趣个性化推荐

TL;DR研究了在高度非静态环境中的情境赌博问题,提出了一种高效的自适应学习算法,并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下,实现了遗憾的亚线性缩放。此外,将该算法扩展到混合收益的更一般情况下,并进行了实证实验,证明了该算法在两种设置下对基线算法的优势。