Jun, 2015

Dueling Bandit问题的遗憾下限和最优算法

TL;DR本文研究了K-armed dueling bandit问题,提出了一种受Deterministic Minimum Empirical Divergence算法启发的算法,并得到了匹配下界的后悔上界,实验结果表明该算法明显优于现有算法。