Oct, 2014

随机组合半赌博机的紧急遗憾上限

TL;DR本研究利用 UCB-like 算法解决计算和采样高效的随机组合半贝叶斯在线学习问题,并分析了其 $n$ 步遗憾的上界,这里的遗憾是指最优解和次优解之间的预期回报差距。