机会主义赌博机的自适应勘探和开发平衡
本文主要研究机遇上下文奖励问题,提出了自适应上界置信区间算法(AdaLinUCB),并实现了 O((log T )^ 2)的问题相关遗憾上界证明。
Feb, 2019
本文考虑了分布保持不变,但在未知时间发生改变的非稳态赌徒问题,研究了两种算法:折扣上限置信区间和滑动窗口上限置信区间,并通过 Hoeffding 不等式得到了后者的上界,对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界,证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。
May, 2008
本文提出了一种分布无关、数据驱动的上置信界(UCB)算法,结合最近发展的重新抽样中位数法(RMM)方法,对称奖励分布的研究中生成近乎最优的后悔边界,即使是重尾分布。
Jun, 2024
在这篇论文中,我们将多智能体图赌博问题定义为由 Zhang、Johansson 和 Li [CISS 57,1-6(2023)] 引入的图赌博问题的多智能体扩展。我们提出了一种基于上限置信界(UCB)的学习算法 Multi-G-UCB,并证明其在 T 步内的期望遗憾通过 O (Nlog (T)[sqrt (KT) + DK]) 被界定,其中 D 是图 G 的直径。最后,我们通过与其他方法的比较对算法进行了数值测试。
Jan, 2024
提出抵御恶意攻击的新型样本中位数算法和探索辅助上限置信区间算法,并通过多个仿真和实验表明它们能够在多臂赌博机问题中实现 sublinear regret。
Feb, 2020
本文提出了一种基于乘数 bootstrap 的非参数和数据相关的 UCB 算法,并进一步将二阶校正融入该算法,在理论上,我们推导出了在比标准次高斯性更弱的尾部假设下的多臂老虎机的问题相关和问题无关的后悔边界,数值结果表明 UCB 算法相比其他基线在一系列多臂和线性老虎机问题中都有显著的降低后悔
Jun, 2019
我们提出了一种新的攻击策略,在随机多臂赌博问题中,通过操纵 UCB 原则来引导其选择一些次优的目标臂,攻击成本的累计代价随轮数的增加而增长,上界与下界相差一个 loglogT 的因子,因此我们的攻击接近最优。
Aug, 2020
我们提出了一种新算法 NeuralUCB 来解决随机上下文的赌博机问题,它利用了深度神经网络的表达能力并使用基于神经网络的随机特征映射来构建奖励的上界,证明了该算法能够在一些基准测试中具有实际竞争力且能够保证近乎最优的回报保证。
Nov, 2019
该研究论文将模型选择问题视为无限臂赌博机问题,通过部分训练(资源分配)选择模型,准确率作为奖励,最佳模型与最终选择模型之间的期望准确率差异作为遗憾,提出了一种基于进化算法的新型组合方法 Mutant-UCB,通过在三个开源图像分类数据集上的测试,证明了其相对于固定预算的超出先进技术的相关性。
Feb, 2024