ICMLMay, 2021

带有随机延迟的组合式封锁赌博机

TL;DR本文考虑了带障碍的多臂赌博机问题中,包含组合优化的情况下解决局部最优策略的方法。我们扩展了现有模型,使得多个手臂可以按照可行性约束同时进行决策。本文提出了一种自然的贪心算法,并针对其在多种情况下的表现给出了严格的理论保证。