Feb, 2008

多臂赌博问题的纯探索

TL;DR研究随机多臂老虎机问题的性质和限制,探讨具有在线探索特性的预测器的表现,其中简单后悔被评估,讨论简单后悔与累计后悔的关系,在有限臂数的情况下展示了一种性能下限和预测器的上限后悔,并针对连续老虎臂问题进行了研究。