ICMLMay, 2023

加权记分贝叶斯多臂老虎机算法:通过重复曝光优化解决计算难题

TL;DR研究了一个权重计数的赌博算法,其中动作损失与最近 $m$ 个时间步骤中该动作被播放的次数的加权求和有关,并引入了 “重复暴露最优性” 的条件来最小化完备策略遗憾,提出了简单的修改后的连续消除算法,并对其进行了理论和实验分析。