带有长期回报的随机情境赌博机

Feb, 2023

Stochastic Contextual Bandits with Long Horizon Rewards

Yuzhen Qin, Yingcong Li, Fabio Pasqualetti, Maryam Fazel, Samet Oymak

TL;DR该研究探讨了基于上下文的线性赌博机，考虑到先前的行动和语境对当前奖励的影响，提出了利用稀疏性建立依赖模式和臂参数的新算法，并在两种情境下证明了规避多项式依赖于奖励层面的新保证。

Abstract

The growing interest in complex decision-making and language modeling problems highlights the importance of sample-efficient learning over very long horizons. This work takes a step in this direction by investigating co

发现论文，激发创造

半参数情境赌博机

该论文研究了半参数上下文赌博机问题，设计了新的算法来解决非线性混淆影响下的奖励估计问题，并通过实证评估证明了该算法的有效性。

Mar, 2018

上下文臂选择模型

介绍了在上下文密集应用中的模型选择问题及其解决方案，该方案适用于线性上下文密集应用，并在先验知识下达到了较低的后验概率。

Jun, 2019

平滑上下文强化学习：连接参数化和不可微性遗憾模式

该研究讨论了非参数上下文赌博问题，研究了函数的Hölder类和光滑度参数β之间的插值关系，提出了一种新算法，能够调整到各种光滑度设置，并通过确立匹配的上下限证明其遗憾是速率最优的，从而弥合了现有文献关于参数和非可区分性情境赌徒问题，以及仅使用全局或本地信息的赌徒算法之间的差距，同时也揭示了上下文赌徒问题中的复杂性和遗憾之间关键性的相互影响。

Sep, 2019

具有多样化上下文的随机线性情境策略带

本文研究了上下文多样性对随机线性情境赌博机的影响，提出了LinUCB-d算法并分析其遗憾性能，理论结果表明，在多样性上下文的假设下，LinUCB-d的期望累积遗憾被一个常数限制，改善了以往对LinUCB的理解并加强了其性能保证。

Mar, 2020

通过扰动奖励学习神经上下文强化学习

利用扰动更新神经网络，消除显式探索和计算开销，可在标准规则条件下实现$\tilde{O}(\tilde{d}\sqrt{T})$的遗憾上限，是一种高效且有效的神经自适应算法。

Jan, 2022

突破sqrt(T)壁垒:随机情境线性老虎机具有无关实例的对数遗憾

本文提出了一种名为LR-SCB的低后悔随机情境赌博算法，可以通过利用随机情境、参数估计和后悔最小化来减少多项式级别的对数后悔，并通过实验证明了随机情境的后悔确实会随着多项式级别而增加。

May, 2022

具有大动作空间的上下文臂匠算法的实用化

提供了第一个通用的、效率高的算法，用于解决序列决策中存在的、现有算法在大型连续行动空间中表现不佳的问题，该算法基于（i）监督学习和（ii）行动空间的优化的计算预言，并显示其比标准基线方法表现更好。

Jul, 2022

具有平滑遗憾的情境臂控算法：连续行动空间高效学习

提出了一种平滑遗憾函数的背景自适应算法，可用于大量或连续动作空间下的通用背景自适应问题，并能适应各种光滑度级别的问题，取得了先前优化遗憾函数的最优性保证。

Jul, 2022

可上下文化的随机臂赌博机

介绍了一个在上下文赌博问题中近似最优样本复杂度，并且是这个问题的PAC设置和在线设置中的最小化遗憾。

Jun, 2023

上下文连续型强化学习:静态对动态遗憾的比较

我们研究了上下文连续性强化学习问题，证明了任何达到次线性静态遗憾的算法都可以扩展到达到次线性动态遗憾，我们提出了一种算法，通过自协调屏障和内点法实现了次线性动态遗憾，并且得出两个关键事实：首先，对于上下文不连续的函数，没有算法可以达到次线性动态遗憾；其次，对于强凸和光滑函数，我们提出的算法达到了最小极大动态遗憾速率的最优值，仅相差对数因子。

Jun, 2024