Dec, 2013
K 臂对决赌徒问题的相关上限置信界
Relative Upper Confidence Bound for the K-Armed Dueling Bandit Problem
Masrour Zoghi, Shimon Whiteson, Remi Munos, Maarten de Rijke
TL;DR本文介绍了一种新的解决 K-armed dueling bandit 问题的方法,其扩展了 Upper Confidence Bound 算法并证明了有限时间的遗憾度为 O(log t)。 经实验结果证实,与现有技术相比,该方法在信息检索中取得了显着的优势。