Mar, 2017

概率触发手臂组合半赌博算法的遗憾上界优化及应用

TL;DR该论文研究具有概率触发臂的组合多臂赌博机(CMAB-T)和半弱馈反的问题,将触发概率调制(TPM)条件引入CMAB-T框架中以达到更好的遗憾界限,并发现许多应用程序如影响最大化赌博机和组合级联赌博机满足TPM条件。此外,本文提供了下限结果,表明这种条件对于消除$1/p^*$因子是至关重要的。