Dec, 2023

组合随机贪心赌博机

TL;DR我们提出了一种新颖的组合性随机贪婪的赌博算法 (SGB),用于组合多臂赌博问题。该算法在没有额外信息的情况下,仅观察到每个时间步 t∈[T] 时选择的一组 n 个臂的联合奖励。SGB 采用了一种优化的随机探索再确认的方法,并且专门设计用于具有大量基本臂的情景。与现有方法在每个选择步骤中都会探索整个未选择基本臂集不同,我们的 SGB 算法仅对未选择的臂进行优化比例的抽样,并从该子集中选择行动。我们证明了对于单调随机次模性奖励,我们的算法实现了 (1-1/e) 的遗憾边界,其复杂度为 O (n^(1/3) k^(2/3) T^(2/3) log (T)^(2/3)),在基数约束 k 方面优于最先进的方法。此外,我们在在线受限社交影响最大化的背景下对我们的算法进行实证评估。我们的结果表明,我们提出的方法始终优于其他算法,并且随着 k 的增长,性能差距也增大。