Oct, 2023

强健性多臂赌博机算法对错误假设的鲁棒性研究

TL;DR对于参数化赌博机和上下文赌博机,我们确定了一些充分条件,取决于问题实例和模型类别,在这些条件下,经典算法(如 ϵ-greedy 和 LinUCB)在甚至严重错误的奖励设定下,也能够在时间范围内实现亚线性(sublinear)的后悔保证,这与现有针对错误设定赌博机的最坏情况结果形成对比,后者显示的后悔界限与时间成线性关系,这表明存在一组对错误设定具有鲁棒性的赌博机实例。