Aug, 2016

多路对决棍手算法及其在在线排序器评估中的应用

TL;DR提出了一种新的dueling bandits 模型来解决在线排名器评估中的探索-开发权衡问题,该模型使用对于无限数量的排名器的同时比较。实验结果表明,该算法与现有的最先进的dueling bandit算法相比,表现出了数量级的性能提升。