May, 2016

对抗性赌博机的改进下界

TL;DR该研究提供了敌对强盗算法必须遭受的遗憾的新的下界,并证明了对于最佳臂的总损失或损失的二次变化的上界是接近紧的。此外,研究还证明了两个不可能的结果,即单臂最优和遗憾不能随损失范围的提高而扩展。相比之下,在完全信息设置中这两个结果是可能的。