具有对数或次线性遗憾的约束上下文臂机算法

NIPSApr, 2015

具有对数或次线性遗憾的约束上下文臂机算法

Algorithms with Logarithmic or Sublinear Regret for Constrained Contextual Bandits

Huasen Wu, R. Srikant, Xin Liu, Chong Jiang

TL;DR本文对具有预算和时间限制的约束情境赌博问题展开了研究，提出了一种高效算法 UCB-ALP 以实现对其进行近似求解并达到对数遗憾。

Abstract

We study contextual bandits with budget and time constraints, referred to as constrained contextual bandits.The time and budget constraints

constrained contextual bandits budget constraints time constraints adaptive-linear-programming ucb-alp algorithm

发现论文，激发创造

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

线性参数赌博机的近似极小极大后悔

研究了有限动作集的线性上下文强化学习问题，介绍了一种名为 VCL SupLinUCB 的算法，并表明其与最佳下界相匹配，相较于之前的算法分析，节省了两个对数因子。

Mar, 2019

线性上下文臂优化中的自适应探索

我们设计了一种渐近上限最优算法，并充分利用线性结构和精确探索，从而减少了在多种合理情境下的失算，数值结果表明，与其他基准算法相比，我们的方法大大减少了失算。

Oct, 2019

带线性约束的随机赌博机

本文研究了一个约束的上下文线性赌博机问题，提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限，针对多臂赌博机情况提出了高效算法，同时给出了问题的下限和模拟结果。

Jun, 2020

基于 oracle 的对抗性情境赌博算法的改进遗憾界

提出了一种基于 oracle 的算法来应对敌对情境下的赌博问题，该算法在访问离线优化 Oracle 并且享有 $O ((KT)^{\frac {2}{3}}(\log N)^{\frac {1}{3}})$ 的遗憾度的情况下是计算有效的，其中 K 是操作的数量，T 是迭代次数，N 是基线策略的数量。

Jun, 2016

AdaLinUCB: 基于上下文的赌博机的机会学习

本文主要研究机遇上下文奖励问题，提出了自适应上界置信区间算法（AdaLinUCB），并实现了 O（（log T ）^ 2）的问题相关遗憾上界证明。

Feb, 2019

广义线性背景臂机情境下的有限适应度最优遗憾

我们在有限适应性的条件下研究广义线性情境赌博问题。我们提出了两种算法分别解决两种普遍存在的有限适应性模型：具有随机情境的批量学习和具有对抗情境的罕见策略切换。对于这些模型，我们建立了本质上紧密的遗憾上界。值得注意的是，在我们获得的上界中，我们成功消除了关键参数 kappa 的依赖性，该参数捕捉到底层奖励模型的非线性。对于我们的批量学习算法 B-GLinCB，使用 Ω(log (log T)) 批次，遗憾的规模为 Φ(O (√T)). 此外，我们建立了我们的罕见切换算法 RS-GLinCB 最多更新策略 Φ(O (log^2 T)) 次，并实现了 Φ(O (√T)) 的遗憾。我们消除广义线性情景赌博对 kappa 的依赖的方法可能具有独立的兴趣。

Apr, 2024

关于局部隐私线性情境赌博机的最佳后悔

通过分析均值绝对偏差误差和分层主成分回归，我们展示了一种能够在局部隐私线性情境播放机中实现 O (√T) 累积遗憾上界的解决方案。

Apr, 2024

突破 sqrt (T) 壁垒：随机情境线性老虎机具有无关实例的对数遗憾

本文提出了一种名为 LR-SCB 的低后悔随机情境赌博算法，可以通过利用随机情境、参数估计和后悔最小化来减少多项式级别的对数后悔，并通过实验证明了随机情境的后悔确实会随着多项式级别而增加。

May, 2022

随机多臂赌博问题的遗憾下界和拓展上置信界策略

通过对经典多臂赌博机（Stochastic Multi-Armed Bandit）的研究，探讨了两种不同的准则下存在的遗憾下界。同时，研究了 UCB 等算法的变体，证明了这种情况下不可能设计一种自适应的策略来选择最优算法。

Dec, 2011