提出了一种基于 oracle 的算法来应对敌对情境下的赌博问题,该算法在访问离线优化 Oracle 并且享有 $O ((KT)^{\frac {2}{3}}(\log N)^{\frac {1}{3}})$ 的遗憾度的情况下是计算有效的,其中 K 是操作的数量,T 是迭代次数,N 是基线策略的数量。
Jun, 2016
本文介绍了一种在线学习算法,它使用了一种基于代价敏感分类器的方法,并实现了最优遗憾率,与之前的算法相比,具有指数级别的运行速度优势,并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。
Jun, 2011
通过实现无需模拟器的多项式时间算法,我们在拥有线性上界误差的情况下,提高了对抗性线性上下文赌博问题的表现,实现了近乎优化的后悔度,同时保持了计算效率。
Sep, 2023
我们提出了一种对抗情境下上下文弛豫的方法,其中上下文是从已知分布中顺序独立抽取的,并且成本序列由在线对手选择。我们的算法在每一轮最多对离线优化预言机进行 O (K) 次调用,有一个遗憾界限为 O (T^(2/3)(Klog (|Pi|))^(1/3)),这是首次改进了 Syrgkanis 等人在 2016 年 NeurIPS 会议上获得的 O ((TK)^(2/3)(log (|Pi|))^(1/3)) 最佳界限,也是第一次与 Langford 和 Zhang 在 2007 年 NeurIPS 会议上为随机情况获得的原始界限相匹配。
Oct, 2023
本文提出了一种在线学习算法,具有上下文匹配学习问题中的统计最优保证,并通过少量的机器学习调用来完成,而且在性能方面非常优秀。
Feb, 2014
针对经典 $K$-armed 线性上下文对抗性问题,我们开发了基于 Exp3 算法的计算有效算法,其中包含实时算法和鲁棒算法,它们能够实现良好的失望保证,并且对于线性奖励函数而言具有稳健性。
Feb, 2020
通过分析均值绝对偏差误差和分层主成分回归,我们展示了一种能够在局部隐私线性情境播放机中实现 O (√T) 累积遗憾上界的解决方案。
Apr, 2024
我们研究了针对 K 臂线性情境赌博机的最佳算法,无需先前对环境有所了解,在敌对和随机的情境下都能够提供接近最优的后悔边界。
Dec, 2023
本文提出了针对广义线性情境臂的上界置信度算法,实现了与众不同的性能,同时我们还分析了更简单的上界置信度算法,在特定情况下证明了该算法具有最优的后悔。
Feb, 2017
本研究提出了一种解决上下文相关性及跨上下文学习问题的算法,可在拍卖等有战略设置中实现更高性能的结果。
Sep, 2018