Jun, 2015

Copeland对立双臂赌博算法

TL;DR研究提出了两个算法以在Condorcet winner不存在的情况下解决dueling bandit问题。这些算法寻求最小化与Copeland winner相关的遗憾,Copeland winner与Condorcet winner不同的是,它是有保障的存在。第一个算法CCB适用于少量的arms,第二个算法SCB在大规模问题上表现更好。该研究提供了理论结果以界定CCB和SCB所积累的遗憾。这些结果大幅度改善了现有结果,并且没有附带限制性假设,提供了O(K log T)的最佳结果。