零膨胀臂
本文考察了当奖励分布具有 1+ε 阶矩时的多臂赌博问题,通过定义基于更精细的估计器的采样策略,如截断经验均值、Catoni 的 M - 估计和均值中位数估计器,证明了二阶矩(有限方差)足以获得与次高斯奖励分布同阶的悔恨界。
Sep, 2012
本文提出了一种分布无关、数据驱动的上置信界(UCB)算法,结合最近发展的重新抽样中位数法(RMM)方法,对称奖励分布的研究中生成近乎最优的后悔边界,即使是重尾分布。
Jun, 2024
本文提出了两种基于高斯过程的算法 - 改进的 GP-UCB(IGP-UCB)和 GP-Thomson 采样(GP-TS),并给出了相应的遗憾边界,在连续的臂集上解决了随机赌徒问题。当期望奖励函数属于复制核希尔伯特空间(RKHS)时,边界成立。在实验评估和对合成和真实世界环境中现有算法的比较中,突出了所提出策略的优势。
Apr, 2017
本文考虑了分布保持不变,但在未知时间发生改变的非稳态赌徒问题,研究了两种算法:折扣上限置信区间和滑动窗口上限置信区间,并通过 Hoeffding 不等式得到了后者的上界,对不优的赌博机被玩的次数期望进行了上界估计并证明了存在性突然性改变时的遗憾下界,证明了折扣上限置信区间和滑动窗口上限置信区间的匹配下界一致性。
May, 2008
该研究提出了高效的非参数性多臂赌博机过程,旨在解决机器学习算法和数据分析中的应用问题,并分析了参数和非参数设置下的 UCB 过程的修改版本及非效率性。
Mar, 2017
本文提出了一种基于乘数 bootstrap 的非参数和数据相关的 UCB 算法,并进一步将二阶校正融入该算法,在理论上,我们推导出了在比标准次高斯性更弱的尾部假设下的多臂老虎机的问题相关和问题无关的后悔边界,数值结果表明 UCB 算法相比其他基线在一系列多臂和线性老虎机问题中都有显著的降低后悔
Jun, 2019
本文提出了一种新的算法 Discounted Thompson Sampling (DS-TS) with Gaussian priors,用于解决非平稳多臂赌博机问题,并分析了算法在不同情况下的表现和 upper bound of regret。
May, 2023
本文研究了在未知奖励分布下使用 Thompson 采样算法来解决不断变化的赌博机问题,证明了一种子线性的,O (sqrt (T) log T) 的遗憾上限,并将算法测试在了一个动态信道接入问题的模拟中,实证结果与理论上限一致。
Oct, 2019
提出抵御恶意攻击的新型样本中位数算法和探索辅助上限置信区间算法,并通过多个仿真和实验表明它们能够在多臂赌博机问题中实现 sublinear regret。
Feb, 2020