Nov, 2023

在线推荐中结合机制设计与强盗算法抗击标题党

TL;DR我们研究了多臂赌博问题的战略变体,称为战略点击赌博问题。我们设计了一种激励感知的学习算法 UCB-S,该算法实现了在不确定性下激励期望的臂行为,并且能够学习未知参数以最小化遗憾度。我们的理论结果得到了通过模拟战略臂行为进行的支持,证实了我们所提出的激励设计的有效性和鲁棒性。