组合半臂老虎机的汤普森抽样
使用贝叶斯方法的随机算法Thompson Sampling在多臂赌博问题中表现显著,本文提供了一种新的悔恨分析方法,同时证明了该算法在期望后悔上的问题特定界限和问题独立界限,方法简单且可适用于更广泛的contestual bandits设置。
Sep, 2012
本文将 Thompson sampling 算法扩展到预算限制的 MAB 中,通过从后验分布中采样两个数字并比较选择具有最大比值的手臂进行更新,证明此算法在伯努利臂或普通分布下的分布相关遗憾界都是在预算上对数复杂度,通过我们的仿真实验验证了该算法的有效性。
May, 2015
本文提出了多次试验下的Thompson sampling方法(MP-TS)并对其进行了后效分析,证明了其具有与Anantharam等人提供的最佳后悔下界相匹配的最优后悔上界,并通过计算机模拟进行了验证。我们还提出了MP-TS的改进版本,并表明其具有更好的实际效果。
Jun, 2015
本文研究了随机组合多臂赌博机框架,提出了一种名为SDCB的新算法,该算法估计底层随机变量的分布和它们的随机显著性置信区间,并证明了SDCB可以实现 O(logT) 的分布相关遗憾和 $ ilde{O}(√T)$ 的分布无关遗憾,并将所得结果应用于$K$-MAX问题。
Oct, 2016
研究了在半盲反馈条件下,组合多臂赌博问题中,具有概率触发武器的组合汤普森抽样的遗憾,并在基准武器预期的连续Lipschitz情况下得出了CTS的遗憾界。
Sep, 2018
本文研究了采用半智能反馈的随机组合多臂赌博机问题。研究中提出了解决对于两种不同分布情况下是否存在效率最优、渐进遗憾最小算法的问题。通过分别采用Beta先验和高斯先验对 Combinatorial Thompson Sampling 策略进行了分析,进而找到了这两种分布情况下的算法解决方案,从而得出计算效率上优于 Efficient Sampling for Combinatorial Bandit 策略的结论。
Jun, 2020
本文研究一种多臂赌博机问题,其中每个臂的质量是在奖励分布的某个水平alpha上通过条件风险价值(CVaR)来测量。我们引入了一种新的CVaR赌博机定理的Thompson Sampling方法,尤其适用于基于物理资源的问题。我们在理论上提供了它们CVaR损失的最小化性能的可行性分析,实验结果表明这些策略是第一个在CVaR赌博机中实现渐近最优性的,并匹配了此设置的相应渐近下限。
Dec, 2020
该论文提出了基于多级 Thompson 抽样方案的算法,用于解决具有线性预期收益的上下文相关多臂赌博机及其聚类武器的问题。同时,理论和实证表明,利用特定的集群结构可以显著改善遗憾并降低计算成本。
Sep, 2021
本文研究了在贪心算法下Thompson sampling(TS)在组合多臂赌博问题(CMAB)中的行为,证明了TS可以在近似算法的预测下解决CMAB问题,并提供了渐近匹配的后悔上限。
Nov, 2021
本研究探讨组合良带(Bandits)的算法, 针对其大小批次(K)对后悔束缚的依赖性进行优化, 发现一种可替代平滑性条件的新型触发概率和方差调节(TPVM)条件, 进行后悔分析并提出基于置信区间和方差的BCUCB-T算法,将大小批次(K)的项降低至对数级别, 并在非触发CMAB中将其完全去除。实验结果表明, 我们的算法在不同领域具有优越的性能。
Aug, 2022