BriefGPT.xyz
Jan, 2019
在随机和对抗半臂匪中的最优解决方案
Beating Stochastic and Adversarial Semi-bandits Optimally and Simultaneously
HTML
PDF
Julian Zimmert, Haipeng Luo, Chen-Yu Wei
TL;DR
开发出新的半强化学习算法,不需要先验信息,可同时在随机环境和对抗环境下获得对数级和平方级的遗憾,并通过在合成数据上的实验证明了其性能的一致性和优越性。
Abstract
We develop the first general
semi-bandit algorithm
that simultaneously achieves $\mathcal{O}(\log T)$
regret
for
stochastic environments
a
→