Dec, 2013

K 臂对决赌徒问题的相关上限置信界

TL;DR本文介绍了一种新的解决 K-armed dueling bandit 问题的方法,其扩展了 Upper Confidence Bound 算法并证明了有限时间的遗憾度为 O(log t)。 经实验结果证实,与现有技术相比,该方法在信息检索中取得了显着的优势。