广义线性情境赌博机的可证明最优算法

ICMLFeb, 2017

广义线性情境赌博机的可证明最优算法

Provably Optimal Algorithms for Generalized Linear Contextual Bandits

Lihong Li, Yu Lu, Dengyong Zhou

TL;DR本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Abstract

contextual bandits are widely used in Internet services from news recommendation to advertising, and to Web search. generalized linear models (logistical regression in particular) have demonstrated stronger perfo

contextual bandits generalized linear models upper confidence bound regret analysis maximum-likelihood estimates

发现论文，激发创造

关于局部隐私线性情境赌博机的最佳后悔

通过分析均值绝对偏差误差和分层主成分回归，我们展示了一种能够在局部隐私线性情境播放机中实现 O (√T) 累积遗憾上界的解决方案。

Apr, 2024

具有对数或次线性遗憾的约束上下文臂机算法

本文对具有预算和时间限制的约束情境赌博问题展开了研究，提出了一种高效算法 UCB-ALP 以实现对其进行近似求解并达到对数遗憾。

Apr, 2015

带线性约束的随机赌博机

本文研究了一个约束的上下文线性赌博机问题，提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限，针对多臂赌博机情况提出了高效算法，同时给出了问题的下限和模拟结果。

Jun, 2020

多项式 Logit 上下文强化学习：可证优化与实用性

本研究考虑了基于多项式逻辑回归选择模型的序贯选择问题，提出了基于上界置信度算法的解法，并得到了近似最优的遗憾上界；进一步，我们研究了该模型的极大似然估计量的置信度界，为实际应用提供了理论指导。

Mar, 2021

非平稳广义线性赌博机算法

本文提出了两个基于上限置信度算法的广义线性模型及其应用的方法，以解决在非静态环境下的上下文在线学习和塞德利反馈问题，这些结果表明这些算法在一般的情境序列下，并且存在突然变化时具有高概率的上限置信度边界，证明结果的形式为时间 T 内的 d^2/3 G^1/3 T^2/3 阶动态后悔。

Mar, 2020

线性上下文臂优化中的自适应探索

我们设计了一种渐近上限最优算法，并充分利用线性结构和精确探索，从而减少了在多种合理情境下的失算，数值结果表明，与其他基准算法相比，我们的方法大大减少了失算。

Oct, 2019

广义线性背景下双重双重稳健汤普森抽样

提出了一种新颖的上下文强化学习算法，使用 double doubly-robust estimator 实现对所有上下文的独立性考虑，并在概率保证条件下证明了广义线性模型赌博机的后悔上限。

Sep, 2022

无限臂线性情境赌博机的紧束悔恨界

本文研究线性上下文赌博机，特别是具有更改的无穷动作集的情况下的情况。我们证明了一种悔恨上界，其与以前的下界相匹配。

May, 2019

广义线性背景臂机情境下的有限适应度最优遗憾

我们在有限适应性的条件下研究广义线性情境赌博问题。我们提出了两种算法分别解决两种普遍存在的有限适应性模型：具有随机情境的批量学习和具有对抗情境的罕见策略切换。对于这些模型，我们建立了本质上紧密的遗憾上界。值得注意的是，在我们获得的上界中，我们成功消除了关键参数 kappa 的依赖性，该参数捕捉到底层奖励模型的非线性。对于我们的批量学习算法 B-GLinCB，使用 Ω(log (log T)) 批次，遗憾的规模为 Φ(O (√T)). 此外，我们建立了我们的罕见切换算法 RS-GLinCB 最多更新策略 Φ(O (log^2 T)) 次，并实现了 Φ(O (√T)) 的遗憾。我们消除广义线性情景赌博对 kappa 的依赖的方法可能具有独立的兴趣。

Apr, 2024

线性参数赌博机的近似极小极大后悔

研究了有限动作集的线性上下文强化学习问题，介绍了一种名为 VCL SupLinUCB 的算法，并表明其与最佳下界相匹配，相较于之前的算法分析，节省了两个对数因子。

Mar, 2019