Jun, 2011
多臂赌博机问题的探索和利用的确定性序列
Deterministic Sequencing of Exploration and Exploitation for Multi-Armed Bandit Problems
Sattar Vakili, Keqin Liu, Qing Zhao
TL;DR提出了一种基于确定性探索和利用序列的 Multi-Armed Bandit (MAB) 问题求解方法,该方法能在轻尾分布下达到最优对数遗憾度,且在重尾分布下,若存在一阶到 p 阶矩,则达到 O (T^1/p) 的遗憾度,该方法在各种 MAB 变体问题中都有应用。