Mar, 2024

奖励驱动的非平稳随机赌博机的探索

TL;DR为具有非平稳奖励分布的多臂赌博问题研究激励探索,其中玩家探索贪心选择以外的臂部时获得补偿,并可能对奖励提供偏差反馈。我们考虑两种不同的非平稳环境:突变和连续变化,并提出相应的激励探索算法。我们表明,所提出的算法在时间上实现了亚线性的遗憾和补偿,从而在非平稳和偏倚或漂移反馈的情况下有效激励探索。