Feb, 2014

具有凹奖励和凸背包的赌博机

TL;DR在这篇论文中,我们提出了一种广义的勘探-开发权衡模型,该模型允许在时间序列上对任意凹奖励和凸度约束进行决策,并对时间范围进行规定。我们证明了一种用于MAB的UCB系列算法自然而简单的扩展,提供了一个具有近乎最优的后悔保证的多项式时间算法,满足Badanidiyuru等人给出的BwK特殊情况下的边界,这一点非常惊人。此外,我们还通过建立此问题与其他研究领域中好的算法之间的有趣联系,提供了更高效的算法。