可上下文化的随机臂赌博机

Jun, 2023

Context-lumpable stochastic bandits

Chung-Wei Lee, Qinghua Liu, Yasin Abbasi-Yadkori, Chi Jin, Tor Lattimore...

TL;DR介绍了一个在上下文赌博问题中近似最优样本复杂度，并且是这个问题的 PAC 设置和在线设置中的最小化遗憾。

Abstract

We consider a contextual bandit problem with $S $ contexts and $A $ actions. In each round $t=1,2,\dots$ the learner observes a random context and chooses an action based on its past experience. The learner then observes a random reward whose mean is a function of the context and the a

contextual bandit sample complexity regret minimization pac low-rank bandits

发现论文，激发创造

上下文赌博机的最优 PAC 算法

本文研究了 $(\epsilon,\delta)-\textit {PAC}$ 场景下的随机赌博机问题，给出了上下界，并提供了一个新的基于 argmax Oracle 的实例最优和计算效率高的算法。

Jul, 2022

上下文臂针对高效优化学习

本文介绍了一种在线学习算法，它使用了一种基于代价敏感分类器的方法，并实现了最优遗憾率，与之前的算法相比，具有指数级别的运行速度优势，并且在反馈延迟方面实现了加性遗憾而非乘性遗憾。

Jun, 2011

基于 oracle 的对抗性情境赌博算法的改进遗憾界

提出了一种基于 oracle 的算法来应对敌对情境下的赌博问题，该算法在访问离线优化 Oracle 并且享有 $O ((KT)^{\frac {2}{3}}(\log N)^{\frac {1}{3}})$ 的遗憾度的情况下是计算有效的，其中 K 是操作的数量，T 是迭代次数，N 是基线策略的数量。

Jun, 2016

一种改进的用于 Oracle-Efficient Adversarial Contextual Bandits 的松弛方法

我们提出了一种对抗情境下上下文弛豫的方法，其中上下文是从已知分布中顺序独立抽取的，并且成本序列由在线对手选择。我们的算法在每一轮最多对离线优化预言机进行 O (K) 次调用，有一个遗憾界限为 O (T^（2/3）(Klog (|Pi|))^（1/3）)，这是首次改进了 Syrgkanis 等人在 2016 年 NeurIPS 会议上获得的 O ((TK)^（2/3）(log (|Pi|))^（1/3）) 最佳界限，也是第一次与 Langford 和 Zhang 在 2007 年 NeurIPS 会议上为随机情况获得的原始界限相匹配。

Oct, 2023

驯服怪兽：一种快速简单的上下文赌博算法

本文提出了一种在线学习算法，具有上下文匹配学习问题中的统计最优保证，并通过少量的机器学习调用来完成，而且在性能方面非常优秀。

Feb, 2014

带线性约束的随机赌博机

本文研究了一个约束的上下文线性赌博机问题，提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限，针对多臂赌博机情况提出了高效算法，同时给出了问题的下限和模拟结果。

Jun, 2020

对抗环境学习的高效算法

该论文提出了用于对抗环境下上下文相关强化学习问题的第一种 Oracle 有效的亚线性后悔算法，分析了两个场景，其中一个是传递式场景，另一个是小分离器设置

Feb, 2016

使用交叉学习的上下文策略带

本研究提出了一种解决上下文相关性及跨上下文学习问题的算法，可在拍卖等有战略设置中实现更高性能的结果。

Sep, 2018

一种新的非平稳情境赌博算法：高效、最优和免参数

提出了首个无需参数的、高效的、动态遗憾最优的上下文赌博算法，通过引入回放阶段来保持对非平稳的探索，并在探索和开发之间保持良好的平衡。

Feb, 2019

绕过模拟器：近似最优的对抗线性情境赌博机

通过实现无需模拟器的多项式时间算法，我们在拥有线性上界误差的情况下，提高了对抗性线性上下文赌博问题的表现，实现了近乎优化的后悔度，同时保持了计算效率。

Sep, 2023