Feb, 2015
组合赌博机再审
Stochastic and Adversarial Combinatorial Bandits
TL;DR本文研究了随机和对抗性组合多臂赌博问题。在随机情况下,我们提出了一种特定问题的遗憾下限,并讨论了其与决策空间维数的比例关系。我们提出了ESCB算法,该算法能有效地利用问题的结构,并对其遗憾进行了有限时间分析。ESCB具有比现有算法更好的性能保证,并在实践中显着优于这些算法。在对抗性情况下,我们提出了CombEXP算法,其遗憾比比现有最先进算法相同,但对于某些组合问题具有较低的计算复杂度。