Dec, 2020

复合和匿名反馈多臂赌博机的自适应算法

TL;DR本文研究使用复合和匿名反馈的多臂老虎机问题,提出适应性算法,解决了没有先验关于奖励间隔大小的信息的问题,并且进行了基于真实数据集的模拟实验,结果表明我们的算法胜过现有的基准算法。