在随机和对抗半臂匪中的最优解决方案

Jan, 2019

Beating Stochastic and Adversarial Semi-bandits Optimally and Simultaneously

Julian Zimmert, Haipeng Luo, Chen-Yu Wei

TL;DR开发出新的半强化学习算法，不需要先验信息，可同时在随机环境和对抗环境下获得对数级和平方级的遗憾，并通过在合成数据上的实验证明了其性能的一致性和优越性。

Abstract

We develop the first general semi-bandit algorithm that simultaneously achieves $\mathcal{O}(\log T)$ regret for stochastic environments a