Jun, 2024

多臂赌博机中的全局奖励

TL;DR提出了一种新的方法来解决具有全局不可分离奖励的不安定多臂赌博机问题,并且通过引入线性和 Shapley-Whittle 指标以及自适应策略来改进现有方法。实验证明,该方法在合成数据和现实世界数据中表现优于基线模型和基于指标的方法。