LC-Tsalis-INF: 广义的两全其美线性上下文决策者

Mar, 2024

LC-Tsalis-INF: 广义的两全其美线性上下文决策者

LC-Tsalis-INF: Generalized Best-of-Both-Worlds Linear Contextual Bandits

Masahiro Kato, Shinji Ito

TL;DR本研究针对具有独立同分布 (i.i.d.) 上下文的线性情境赌博问题，提出一种基于 Follow-The-Regularized-Leader 和 Tsallis 熵的算法，被称为 α-Linear-Contextual (LC)-Tsallis-INF，以降低遗憾值并改进现有的算法。

Abstract

This study considers the linear contextual bandit problem with independent and identically distributed (i.i.d.) contexts. In this problem, existing studies have proposed Best-of-Both-Worlds (BoBW) algorithms whose regrets satisfy $O(\log^2(T))$ for the number of rounds $T$ in a stochas

linear contextual bandit problem best-of-both-worlds algorithm regret suboptimality gap tsallis entropy

发现论文，激发创造

线性上下文强化学习最佳方案

该研究探讨了在对抗性破坏下的 K 臂线性上下文赌博问题，并提出了一种在随机和对抗环境下具有理论保证的名为最佳两全（BoBW） RealFTRL 的策略。

Dec, 2023

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

线性上下文强化学习的最佳算法

我们研究了针对 K 臂线性情境赌博机的最佳算法，无需先前对环境有所了解，在敌对和随机的情境下都能够提供接近最优的后悔边界。

Dec, 2023

突破 sqrt (T) 壁垒：随机情境线性老虎机具有无关实例的对数遗憾

本文提出了一种名为 LR-SCB 的低后悔随机情境赌博算法，可以通过利用随机情境、参数估计和后悔最小化来减少多项式级别的对数后悔，并通过实验证明了随机情境的后悔确实会随着多项式级别而增加。

May, 2022

无限臂线性情境赌博机的紧束悔恨界

本文研究线性上下文赌博机，特别是具有更改的无穷动作集的情况下的情况。我们证明了一种悔恨上界，其与以前的下界相匹配。

May, 2019

具有对数或次线性遗憾的约束上下文臂机算法

本文对具有预算和时间限制的约束情境赌博问题展开了研究，提出了一种高效算法 UCB-ALP 以实现对其进行近似求解并达到对数遗憾。

Apr, 2015

广义线性背景臂机情境下的有限适应度最优遗憾

我们在有限适应性的条件下研究广义线性情境赌博问题。我们提出了两种算法分别解决两种普遍存在的有限适应性模型：具有随机情境的批量学习和具有对抗情境的罕见策略切换。对于这些模型，我们建立了本质上紧密的遗憾上界。值得注意的是，在我们获得的上界中，我们成功消除了关键参数 kappa 的依赖性，该参数捕捉到底层奖励模型的非线性。对于我们的批量学习算法 B-GLinCB，使用 Ω(log (log T)) 批次，遗憾的规模为 Φ(O (√T)). 此外，我们建立了我们的罕见切换算法 RS-GLinCB 最多更新策略 Φ(O (log^2 T)) 次，并实现了 Φ(O (√T)) 的遗憾。我们消除广义线性情景赌博对 kappa 的依赖的方法可能具有独立的兴趣。

Apr, 2024

带线性约束的随机赌博机

本文研究了一个约束的上下文线性赌博机问题，提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限，针对多臂赌博机情况提出了高效算法，同时给出了问题的下限和模拟结果。

Jun, 2020

关于局部隐私线性情境赌博机的最佳后悔

通过分析均值绝对偏差误差和分层主成分回归，我们展示了一种能够在局部隐私线性情境播放机中实现 O (√T) 累积遗憾上界的解决方案。

Apr, 2024

对抗性线性情境赌博机的一阶和二阶边界

考虑对抗性线性上下文赌博机设置，文中给出了一种新的算法，通过利用与不需要上下文设置的线性赌博机的新联系，利用连续指数权重算法在概率单形上的一个截断版本来获得结果，并证明了其结果优于最坏情况下的后悔，特别的当环境相对温和时，考虑了上下文的密度是对数凹的情况，给出了一种同时优于二阶和一阶损失的方法。

May, 2023