IJCAIMay, 2019

多臂老虎机中聚类和历史信息的最优利用

TL;DR本研究研究了带有历史观测和预聚类武器的随机多臂赌博问题和情境赌博问题,并开发了一系列算法来有效地在在线探索阶段内合并这些离线信息并推导了它们的后悔界限,其中包括 META 算法,该算法在使用历史观测和聚类的算法和仅使用历史观测的算法之间有效地避险,并且在聚类质量良好时优于后者,反之亦然。