具上下文的组合赌博机、概率挑战的手臂
本研究探讨组合良带 (Bandits) 的算法,针对其大小批次 (K) 对后悔束缚的依赖性进行优化,发现一种可替代平滑性条件的新型触发概率和方差调节 (TPVM) 条件,进行后悔分析并提出基于置信区间和方差的 BCUCB-T 算法,将大小批次 (K) 的项降低至对数级别,并在非触发 CMAB 中将其完全去除。实验结果表明,我们的算法在不同领域具有优越的性能。
Aug, 2022
该论文研究具有概率触发臂的组合多臂赌博机 (CMAB-T) 和半弱馈反的问题,将触发概率调制 (TPM) 条件引入 CMAB-T 框架中以达到更好的遗憾界限,并发现许多应用程序如影响最大化赌博机和组合级联赌博机满足 TPM 条件。此外,本文提供了下限结果,表明这种条件对于消除 $1/p^*$ 因子是至关重要的。
Mar, 2017
该研究提出了一种通用的组合多臂赌博问题框架,将未知分布的基础臂组成超级臂进行玩耍,进一步探讨了更多可能基于已激发臂的结果触发概率的扩展,旨在通过在线学习算法实现最小化(α,β)- 逼近遗憾。
Jul, 2014
引入一种新的组合多臂赌博梳理 (CMAB) 框架,具有多维和概率触发的臂 (CMAB-MT),其中每个臂的结果是一个 d 维多维随机变量,反馈遵循普通臂触发过程。
Jun, 2024
本文研究了随机组合多臂赌博机框架,提出了一种名为 SDCB 的新算法,该算法估计底层随机变量的分布和它们的随机显著性置信区间,并证明了 SDCB 可以实现 O (logT) 的分布相关遗憾和 $ ilde {O}(√T)$ 的分布无关遗憾,并将所得结果应用于 $K$-MAX 问题。
Oct, 2016
本文提出了两个基于深度神经网络的组合赌博算法:CN-UCB 和 CN-TS,它们是首个在组合赌博问题中实现遗憾性能保证的算法。通过数值实验,证明了我们的算法有更好的性能。
May, 2023
探讨 K-armed bandit 问题下的 noisy reward,提出了一种简单实用的算法(kNN-UCB),并得到了紧密的 top-arm identification 和 sublinear regret 边界,并讨论了该算法的全局 intrisinic dimension 和 ambient dimension 的 regret 边界,同时介绍了对于无限武装情境下 bandit 算法的扩展和实验证明了算法在多种任务上的优越性。
Jan, 2018
该论文研究了一种新的上下文多臂赌博问题,其中玩家在每个时间步观察独立采样的上下文,以确定每个臂的平均回报,但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题,同时介绍了延迟利用和机会抽样的概念。
Mar, 2020
本文提出了一种分布无关、数据驱动的上置信界(UCB)算法,结合最近发展的重新抽样中位数法(RMM)方法,对称奖励分布的研究中生成近乎最优的后悔边界,即使是重尾分布。
Jun, 2024