Apr, 2017

核化多臂赌博机

TL;DR本文提出了两种基于高斯过程的算法 - 改进的 GP-UCB(IGP-UCB)和 GP-Thomson 采样(GP-TS),并给出了相应的遗憾边界,在连续的臂集上解决了随机赌徒问题。当期望奖励函数属于复制核希尔伯特空间(RKHS)时,边界成立。在实验评估和对合成和真实世界环境中现有算法的比较中,突出了所提出策略的优势。