incentivized exploration in multi-armed bandits (MAB) has witnessed
increasing interests and many progresses in recent years, where a principal
offers bonuses to agents to do explorations on her behalf. However,
我们考虑了一种随机多臂赌博问题的变种,其中臂是可以改善奖励或吸收奖励的战略代理。我们设计了一种机制,以鼓励在平衡状态下实现最高水平的性能,并在非平衡情况下至少获得具有最高均值的诚实代理的收入。我们还确定了一类称为性能激励的 MAB 算法,它们满足一系列性质并表明它们导致的机制在平衡状态下激励最高水平的性能并且是健壮的。