Jan, 2023

GBOSE: 广义臂匪正交半参数估计

TL;DR本文提出了一种基于非参数奖励模型的多臂赌博算法,具有最先进的上限复杂度,相对于已有的半参数算法,提供了明确的行动选择分布,并要求更少的计算,这个算法在涉及到两个以上臂的情况下,其上限遗憾的复杂度最优,并提供模拟结果验证其方法卓越性。