Feb, 2016

探索先行,利用随后:强盗问题中后悔的真实形状

TL;DR本文研究多臂老虎机问题的遗憾下界,并利用 Kullback-Leibler 分歧的已知特性证明了非相对论、分布依赖的限制。这些限制特别表明,在初始阶段遗憾几乎线性增长,并且在最后阶段仅出现知名的对数增长。证明技术突出了信息理论论证的本质,并去除了所有不必要的复杂性。