Jun, 2011

多臂赌博机问题的探索和利用的确定性序列

TL;DR提出了一种基于确定性探索和利用序列的 Multi-Armed Bandit (MAB) 问题求解方法,该方法能在轻尾分布下达到最优对数遗憾度,且在重尾分布下,若存在一阶到 p 阶矩,则达到 O (T^1/p) 的遗憾度,该方法在各种 MAB 变体问题中都有应用。