线性上下文强化学习最佳方案

Dec, 2023

Best-of-Both-Worlds Linear Contextual Bandits

Masahiro Kato, Shinji Ito

TL;DR该研究探讨了在对抗性破坏下的 K 臂线性上下文赌博问题，并提出了一种在随机和对抗环境下具有理论保证的名为最佳两全（BoBW） RealFTRL 的策略。

Abstract

This study investigates the problem of $K$-armed linear contextual bandits, an instance of the multi-armed bandit problem, under an adversarial corruption. At each round, a decision-maker observes an independent and identically distributed context and then selects an arm based on the c

$k$-armed linear contextual bandits adversarial corruption contextual adversarial regime linear models best-of-both-worlds (bobw) realftrl

发现论文，激发创造

线性上下文强化学习的最佳算法

我们研究了针对 K 臂线性情境赌博机的最佳算法，无需先前对环境有所了解，在敌对和随机的情境下都能够提供接近最优的后悔边界。

Dec, 2023

LC-Tsalis-INF: 广义的两全其美线性上下文决策者

本研究针对具有独立同分布 (i.i.d.) 上下文的线性情境赌博问题，提出一种基于 Follow-The-Regularized-Leader 和 Tsallis 熵的算法，被称为 α-Linear-Contextual (LC)-Tsallis-INF，以降低遗憾值并改进现有的算法。

Mar, 2024

针对对抗性线性情境赌博机的高效稳健算法

针对经典 $K$-armed 线性上下文对抗性问题，我们开发了基于 Exp3 算法的计算有效算法，其中包含实时算法和鲁棒算法，它们能够实现良好的失望保证，并且对于线性奖励函数而言具有稳健性。

Feb, 2020

对抗性线性情境赌博机的一阶和二阶边界

考虑对抗性线性上下文赌博机设置，文中给出了一种新的算法，通过利用与不需要上下文设置的线性赌博机的新联系，利用连续指数权重算法在概率单形上的一个截断版本来获得结果，并证明了其结果优于最坏情况下的后悔，特别的当环境相对温和时，考虑了上下文的密度是对数凹的情况，给出了一种同时优于二阶和一阶损失的方法。

May, 2023

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

线性上下文多臂赌博机和背包问题

本文研究了带有资源消耗的线性情境赌博机问题，算法具有近乎最优的遗憾界，并将技术从 Solution 综述中的线性情境赌博机，背包赌博机和在线随机填充问题中结合使用。

Jul, 2015

医生对口罩使用的结论：有用但需辩证看待

本研究提出了一种广义的最好结果算法以及如何通过规范化导向跟随和在线镜像下降算法实现在线学习中的最好结果，将这种算法应用于上下文、图和表马尔科夫决策过程中。

Feb, 2023

带线性约束的随机赌博机

本文研究了一个约束的上下文线性赌博机问题，提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限，针对多臂赌博机情况提出了高效算法，同时给出了问题的下限和模拟结果。

Jun, 2020

绕过模拟器：近似最优的对抗线性情境赌博机

通过实现无需模拟器的多项式时间算法，我们在拥有线性上界误差的情况下，提高了对抗性线性上下文赌博问题的表现，实现了近乎优化的后悔度，同时保持了计算效率。

Sep, 2023

线性上下文强化学习模型选择的通用自适应算法

在上下文强化学习中进行模型选择是一项重要的补充问题。本研究提出了一些新的算法，这些算法可以在数据自适应的情况下进行探索，并提供模型选择保证。

Nov, 2021