May, 2014

将对决强盗问题简化为基本强盗问题

TL;DR提出了减少德杰斯特拉竞标者问题 (Dueling Bandits) 到传统 (随机) 多臂赌博机问题 (Multi-Armed Bandits) 的算法,我们的算法有着广泛的应用性以及在有限和无限的情况下证明了较优的回报上限。