Nov, 2019

具有相关臂的多臂赌博机

TL;DR针对多臂赌博机框架中奖励之间相互关联的情况,我们提出了一种统一的方法来优化这种关联并基于这种情况推广经典赌博算法,其中 C-UCB 是上置信边界算法的相关版本。我们证明了算法的正确性,并通过 MovieLens 和 Goodreads 数据集的实验验证了该算法与经典的赌博算法相比的显著改进。