Mar, 2023

具有延迟组合匿名赌徒反馈的随机次模赌徒算法

TL;DR本文研究了具有随机次模(期望上)奖励和完全 bandit 延迟反馈的组合多臂老虎机问题,其中假定延迟反馈是组合匿名的,同时研究了有界择逊、随机独立和随机条件独立三种延迟反馈模型,给出了每种延迟模型的后悔界限,忽略问题相关参数,证明所有延迟模型的后悔界限为 $ ilde {O}(T^{2/3} + T^{1/3} u)$,其中 $T$ 为时间跨度,$ u$ 根据三种情况有不同的定义,因此在所有三种延迟模型中表明了延迟对后悔的添加项,该算法被证明优于具有延迟复合匿名反馈的其他全 bandit 方法。