可上下文化的随机臂赌博机
本文研究了 $(\epsilon,\delta)-\textit {PAC}$ 场景下的随机赌博机问题,给出了上下界,并提供了一个新的基于 argmax Oracle 的实例最优和计算效率高的算法。
Jul, 2022
本文介绍了一种在线学习算法,它使用了一种基于代价敏感分类器的方法,并实现了最优遗憾率,与之前的算法相比,具有指数级别的运行速度优势,并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。
Jun, 2011
提出了一种基于 oracle 的算法来应对敌对情境下的赌博问题,该算法在访问离线优化 Oracle 并且享有 $O ((KT)^{\frac {2}{3}}(\log N)^{\frac {1}{3}})$ 的遗憾度的情况下是计算有效的,其中 K 是操作的数量,T 是迭代次数,N 是基线策略的数量。
Jun, 2016
我们提出了一种对抗情境下上下文弛豫的方法,其中上下文是从已知分布中顺序独立抽取的,并且成本序列由在线对手选择。我们的算法在每一轮最多对离线优化预言机进行 O (K) 次调用,有一个遗憾界限为 O (T^(2/3)(Klog (|Pi|))^(1/3)),这是首次改进了 Syrgkanis 等人在 2016 年 NeurIPS 会议上获得的 O ((TK)^(2/3)(log (|Pi|))^(1/3)) 最佳界限,也是第一次与 Langford 和 Zhang 在 2007 年 NeurIPS 会议上为随机情况获得的原始界限相匹配。
Oct, 2023
本文研究了一个约束的上下文线性赌博机问题,提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限,针对多臂赌博机情况提出了高效算法,同时给出了问题的下限和模拟结果。
Jun, 2020
通过实现无需模拟器的多项式时间算法,我们在拥有线性上界误差的情况下,提高了对抗性线性上下文赌博问题的表现,实现了近乎优化的后悔度,同时保持了计算效率。
Sep, 2023