带有完全赌博反馈的 Top-k 组合赌博
在固定预算环境下,我们研究了多臂赌博机的实值组合纯探索问题。我们提出了 Combinatorial Successive Asign(CSA)算法,该算法可以在动作类别的大小与臂的数量成指数关系时,找到最佳动作。我们证明了 CSA 算法的错误概率上界与下界在指数的对数因子上匹配。然后,对于动作类别大小为多项式的情况,我们引入了另一个算法 Minimax Combinatorial Successive Accepts and Rejects(Minimax-CombSAR),并证明该算法是最优的,与一个下界相匹配。最后,我们通过与先前方法的实验比较,证明了我们的算法表现更好。
Oct, 2023
本文研究了随机和对抗性组合多臂赌博问题。在随机情况下,我们提出了一种特定问题的遗憾下限,并讨论了其与决策空间维数的比例关系。我们提出了 ESCB 算法,该算法能有效地利用问题的结构,并对其遗憾进行了有限时间分析。ESCB 具有比现有算法更好的性能保证,并在实践中显着优于这些算法。在对抗性情况下,我们提出了 CombEXP 算法,其遗憾比比现有最先进算法相同,但对于某些组合问题具有较低的计算复杂度。
Feb, 2015
该研究针对随机、组合式多臂老虎机问题,提出了一种将离线算法转化为基于有限老虎机反馈的子线性 α 遗憾策略的框架,并将其应用于离散优化问题中的基数问题和背包约束问题中获得了良好的表现。
Jan, 2023
本研究探讨了组合多臂赌博的后悔下界,并证明了在所有光滑奖励函数下,这种下界都是合理的,并且根据 Merlis 和 Mannor(2019)提出的 Gini 加权平滑度参数确定单调奖励函数的下界。
Feb, 2020
我们提出了一种新颖的组合性随机贪婪的赌博算法 (SGB),用于组合多臂赌博问题。该算法在没有额外信息的情况下,仅观察到每个时间步 t∈[T] 时选择的一组 n 个臂的联合奖励。SGB 采用了一种优化的随机探索再确认的方法,并且专门设计用于具有大量基本臂的情景。与现有方法在每个选择步骤中都会探索整个未选择基本臂集不同,我们的 SGB 算法仅对未选择的臂进行优化比例的抽样,并从该子集中选择行动。我们证明了对于单调随机次模性奖励,我们的算法实现了 (1-1/e) 的遗憾边界,其复杂度为 O (n^(1/3) k^(2/3) T^(2/3) log (T)^(2/3)),在基数约束 k 方面优于最先进的方法。此外,我们在在线受限社交影响最大化的背景下对我们的算法进行实证评估。我们的结果表明,我们提出的方法始终优于其他算法,并且随着 k 的增长,性能差距也增大。
Dec, 2023
本文研究了随机组合多臂赌博机框架,提出了一种名为 SDCB 的新算法,该算法估计底层随机变量的分布和它们的随机显著性置信区间,并证明了 SDCB 可以实现 O (logT) 的分布相关遗憾和 $ ilde {O}(√T)$ 的分布无关遗憾,并将所得结果应用于 $K$-MAX 问题。
Oct, 2016
本文研究了采用半智能反馈的随机组合多臂赌博机问题。研究中提出了解决对于两种不同分布情况下是否存在效率最优、渐进遗憾最小算法的问题。通过分别采用 Beta 先验和高斯先验对 Combinatorial Thompson Sampling 策略进行了分析,进而找到了这两种分布情况下的算法解决方案,从而得出计算效率上优于 Efficient Sampling for Combinatorial Bandit 策略的结论。
Jun, 2020
考虑到重复使用某些选项可能是不可取的或不可行的,本文提出了一种新颖的随机多臂赌博机设置,并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法,但它设计了一种贪婪算法和一种基于 UCB 的算法,具有一定的优异性。
Jul, 2019