Jul, 2023

具有多次游玩的对抗性睡眠强盗问题:算法与排名应用

TL;DR该论文提出了一种在在线推荐系统中解决多次玩睡眠盗贼问题的高效算法,该问题涉及有界的对抗性损失和未知的 i.i.d. 分布,所提出的算法扩展了单次选择臂的睡眠盗贼算法,能够保证理论性能,后悔上限为 O (kN^2√(TlogT)),其中 k 是每个时间步中选择的臂数,N 是总臂数,T 是时间界限。