Oct, 2023

广义线性Bandit算法及其重尾奖励的高效计算

TL;DR本文研究了具有重尾回报的广义线性赌博问题,提出了基于截断和中值平均的两种新算法,其在时间上界和上下文信息维度的情况下,几乎达到了最优的减悔界限。通过数值实验结果验证了我们算法的优点。