Apr, 2016

双掷硬币汤普森抽样在对决式多臂老虎机算法中的应用

TL;DR该论文通过提出D-TS算法,使用Thompson Sampling解决了dueling bandit问题,该算法适用于一般的Copeland dueling bandits,其中Condorcet dueling bandits是其特例,并在合成和真实数据上进行了模拟,证明了算法的效率。