Nov, 2013

Thompson 采样用于复杂的赌博机问题

TL;DR考虑了具有复杂操作的随机多臂赌博问题,其中决策者在每轮中进行复杂操作而不仅仅是基本臂。复杂操作的奖励是基本臂奖励的某些函数,并且观察到的反馈可能不是每个臂的奖励。作者在一般情况下证明了一种频率后悔上限和 Thompson 抽样算法的 相容性,并应用于包括选择臂子集的一类复杂赌博问题中。