Feb, 2016
探索先行,利用随后:强盗问题中后悔的真实形状
Explore First, Exploit Next: The True Shape of Regret in Bandit Problems
Aurélien Garivier, Pierre Ménard, Gilles Stoltz
TL;DR本文研究多臂老虎机问题的遗憾下界,并利用 Kullback-Leibler 分歧的已知特性证明了非相对论、分布依赖的限制。这些限制特别表明,在初始阶段遗憾几乎线性增长,并且在最后阶段仅出现知名的对数增长。证明技术突出了信息理论论证的本质,并去除了所有不必要的复杂性。