BriefGPT.xyz
Jul, 2020
随机赌博机的结构自适应算法
Structure Adaptive Algorithms for Stochastic Bandits
HTML
PDF
Rémy Degenne, Han Shao, Wouter M. Koolen
TL;DR
研究奖励最大化和随机多臂赌博问题中的结构约束,提出了一种使用迭代鞍点求解器的渐近最优算法,可以有效地利用结构假设并达到有限时间遗憾界。
Abstract
We study
reward maximisation
in a wide class of structured
stochastic multi-armed bandit
problems, where the mean rewards of arms satisfy some given structural constraints, e.g. linear, unimodal, sparse, etc. Our
→