Dec, 2023

具有长期公平约束的在线不安定多臂赌博机

TL;DR我们介绍了一种名为RMAB-F的新的多臂老虎机模型,它具有长期公平约束;并开发了一种名为Fair-UCRL的强化学习算法,证明了其能够在奖励遗憾和公平违反遗憾方面保持概率亚线性边界。