Apr, 2023

BanditQ -- 在对抗环境中具有保证的每个用户收益的无懊悔学习

TL;DR本文提出一种在线学习算法 BanditQ,基于队列理论和在线学习相结合,实现公平在线预测,并在信息完整的情况下,达到目标约束,同时实现 $O (T^{3/4})$ 的损失率。