Sep, 2023

快速和遗憾最优的最佳臂识别:基本限制和低复杂度算法

TL;DR通过介绍一种新算法 ROBAI 和其变种,该研究识别并解决了在带有双重目标的多臂赌博机问题中达到最优臂的同时最大化奖励的难题;并对算法的停止时间、样本复杂性以及与经典 UCB 算法相比的性能进行了理论分析和数值实验,揭示出了经典 UCB 算法中的“过度探索”现象。