Oct, 2019

批处理赌博机的遗憾界

TL;DR本文提出了一种简单有效的算法来解决批处理随机多臂赌博机和线性随机多臂赌博机问题,这些算法能够通过只使用对数数量的批次实现最优期望遗憾界,此外,文章还首次研究了批处理对抗性多臂赌博机问题,并发现了任何算法的最佳遗憾界(对数因子除外)的预定批处理大小。