May, 2008

非平稳赌博机问题的置信上限策略

TL;DR本文考虑了分布保持不变,但在未知时间发生改变的非稳态赌徒问题,研究了两种算法:折扣上限置信区间和滑动窗口上限置信区间,并通过 Hoeffding 不等式得到了后者的上界,对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界,证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。