Nov, 2018

带背包的对抗性赌博机

TL;DR探究了一种带背包的 Bandits 模型,旨在在限制供应 / 预算情况下求解多臂赌博机问题。提出了一种新的算法,采用重复博弈中遗憾最小化的框架,相对于最佳固定动作分布具有 O (log T) 的竞争比率。