Feb, 2012

最佳两种选择:随机和对抗臂

TL;DR通过结合Exp3 和 UCB1两个先前算法的优点,我们提出了一种新的、在对抗性奖励和随机奖励两种情况下表现最优的bandit算法SAO。