本文针对随机赌博问题,提出了一种在线动态索引策略KL-UCB算法,并通过有界回报和伯努利回报两个方面的研究证明了其优越性和适用性,同时展示了比较实验结果,在时间短的情况下依然表现良好,且优于其他算法。
Feb, 2011
在多臂老虎机游戏中,利用少量样本通过固定置信度水平下的置信区间,提出了一种最初的置信上界算法,该算法使用的样本数量与基于迭代对数定理的下限相比仅相差常数因子,同时使用了一种新的停止时间来避免在其他上置界型算法中观察到的臂联合的界限,从而进一步优化了算法,并通过模拟证明了算法的性能。
Dec, 2013
提出了一种基于UCB并具有适当的置信参数平衡风险和过度乐观代价的随机有限臂老虎机算法,同时具有最优问题依赖性遗憾和最坏情况遗憾。
Jul, 2015
这篇论文提出了一种名为UCBoost的方法,用于解决多臂赌博算法在序贯决策问题中低复杂度且最优问题,该方法提供了一种可以在计算复杂度和最优性之间互相交换的方式。
Apr, 2018
本文旨在研究敌对攻击策略对多臂赌博算法的影响,并提供了离线攻击和在线攻击的策略,展示了潜在的安全威胁。
May, 2019
提出抵御恶意攻击的新型样本中位数算法和探索辅助上限置信区间算法,并通过多个仿真和实验表明它们能够在多臂赌博机问题中实现sublinear regret。
Feb, 2020
我们提出了一种新的攻击策略,在随机多臂赌博问题中,通过操纵UCB原则来引导其选择一些次优的目标臂,攻击成本的累计代价随轮数的增加而增长,上界与下界相差一个loglogT的因子,因此我们的攻击接近最优。
Aug, 2020
提出了基于一种不精确预算方法的智能多臂赌博机构建UCB型算法的新方法;推导出了相应于最优化方法的收敛速度的遗憾界;提出了一种新的算法Clipped-SGD-UCB,并从理论和实证角度展示了在奖励中存在对称噪声的情况下,我们可以达到O(logT√KTlogT)的遗憾界,而不是当奖励分布满足E[X∈D][|X|^(1+α)]≤σ^(1+α)(α∈(0,1])时,即表现得比普遍的重尾赌博机下界所假设的要好。此外,即使奖励分布没有期望,也能保持相同的界限,即当α<0时。
Feb, 2024
本文研究了对抗攻击具有鲁棒性的随机多臂赌博机算法,解决了攻击者在观察学习者行动后篡改奖励观测的问题。提出的算法在已知和未知攻击预算情况下均有效,显著降低了算法的遗憾界限,为提升算法在对抗环境中的稳定性提供了新思路。
Aug, 2024
本研究解决了经典总奖励带区问题和最大带区问题中的顺序最优性缺乏明确性的研究空白。我们提出了一种统一的理论框架,通过引入最佳臂的oracle量并定义上置信界政策,从而实现在不同设置下的顺序最优性分析。我们的研究表明,随着试验次数的增加,oracle量的置信区间必须适当收敛,以确保UCB政策的顺序最优性,这对新的带区问题和顺序最优的UCB算法的系统推导提供了基础。
Nov, 2024