ICMLJun, 2023

单次遍历流式多臂赌博机的严格遗憾界

TL;DR本文解决了多臂赌博机模型 (single-pass MABs) 中的 regret minimization 问题,并设计出一些具有不同 memory 复杂度的算法分别达到了不同的最优 regret 上界,并且通过实验取得了较好的效果。