Oct, 2023

一种改进的用于Oracle-Efficient Adversarial Contextual Bandits的松弛方法

TL;DR我们提出了一种对抗情境下上下文弛豫的方法,其中上下文是从已知分布中顺序独立抽取的,并且成本序列由在线对手选择。我们的算法在每一轮最多对离线优化预言机进行O(K)次调用,有一个遗憾界限为O(T^(2/3)(Klog(|Pi|))^(1/3)),这是首次改进了Syrgkanis等人在2016年NeurIPS会议上获得的 O((TK)^(2/3)(log(|Pi|))^(1/3)) 最佳界限,也是第一次与Langford和Zhang在2007年NeurIPS会议上为随机情况获得的原始界限相匹配。