May, 2019

具有时间性的多臂赌博机问题中汤普森抽样的遗憾界

TL;DR本文从学习的角度分析了未知参数情况下的时序不息不静赌博机问题,在采用泰普斯抽样的情况下考虑了一个通用策略映射作为竞争者,证明了贝叶斯遗憾的 k 倍增长上限。本文的竞争对手足够灵活,可以表示各种基准,包括最佳固定操作策略,最优策略,惠特尔指数策略或近视策略。同时,还提供了支持理论发现的实证结果。