Apr, 2019
非随机多人多臂老虎机:有碰撞信息时达到最优速率,无碰撞信息时次线性
Non-Stochastic Multi-Player Multi-Armed Bandits: Optimal Rate With
Collision Information, Sublinear Without
TL;DR对于(协作式)多人多臂老虎机问题的非随机版本,我们证明了第一个O(√T)-类型的遗憾保证,即使在没有通讯且选择相同行动的情况下也有最大的损失。在反馈模型中,即使对于简单的随机版本,此类约束尚未知。此外,我们还证明了在无冲突信息的情况下反馈模型的第一个亚线性保证,即T ^(1-1 /(2m)),其中m是玩家数量。