Jul, 2020

随机赌博机的结构自适应算法

TL;DR研究奖励最大化和随机多臂赌博问题中的结构约束,提出了一种使用迭代鞍点求解器的渐近最优算法,可以有效地利用结构假设并达到有限时间遗憾界。