结构化线性情境赌博机：一种锐利且几何平滑的分析

Feb, 2020

结构化线性情境赌博机：一种锐利且几何平滑的分析

Structured Linear Contextual Bandits: A Sharp and Geometric Smoothed Analysis

Vidyashankar Sivakumar, Zhiwei Steven Wu, Arindam Banerjee

TL;DR该研究提出了针对带有Gaussian噪声下的结构化线性上下文Bandit学习算法的简单贪心算法，并对其进行了统一的遗憾分析，其中包括带有任何假定结构的 $ heta^*$，表现出了隐含的探索行为。

Abstract

bandit learning algorithms typically involve the balance of exploration and exploitation. However, in many practical applications, worst-case scenarios needing systematic →

发现论文，激发创造

半参数情境赌博机

该论文研究了半参数上下文赌博机问题，设计了新的算法来解决非线性混淆影响下的奖励估计问题，并通过实证评估证明了该算法的有效性。

Mar, 2018

平滑上下文强化学习：连接参数化和不可微性遗憾模式

该研究讨论了非参数上下文赌博问题，研究了函数的Hölder类和光滑度参数β之间的插值关系，提出了一种新算法，能够调整到各种光滑度设置，并通过确立匹配的上下限证明其遗憾是速率最优的，从而弥合了现有文献关于参数和非可区分性情境赌徒问题，以及仅使用全局或本地信息的赌徒算法之间的差距，同时也揭示了上下文赌徒问题中的复杂性和遗憾之间关键性的相互影响。

Sep, 2019

针对对抗性线性情境赌博机的高效稳健算法

针对经典$K$-armed线性上下文对抗性问题，我们开发了基于Exp3算法的计算有效算法，其中包含实时算法和鲁棒算法，它们能够实现良好的失望保证，并且对于线性奖励函数而言具有稳健性。

Feb, 2020

具有平滑遗憾的情境臂控算法：连续行动空间高效学习

提出了一种平滑遗憾函数的背景自适应算法，可用于大量或连续动作空间下的通用背景自适应问题，并能适应各种光滑度级别的问题，取得了先前优化遗憾函数的最优性保证。

Jul, 2022

带有长期回报的随机情境赌博机

该研究探讨了基于上下文的线性赌博机，考虑到先前的行动和语境对当前奖励的影响，提出了利用稀疏性建立依赖模式和臂参数的新算法，并在两种情境下证明了规避多项式依赖于奖励层面的新保证。

Feb, 2023

对抗性线性情境赌博机的一阶和二阶边界

考虑对抗性线性上下文赌博机设置，文中给出了一种新的算法，通过利用与不需要上下文设置的线性赌博机的新联系，利用连续指数权重算法在概率单形上的一个截断版本来获得结果，并证明了其结果优于最坏情况下的后悔，特别的当环境相对温和时，考虑了上下文的密度是对数凹的情况，给出了一种同时优于二阶和一阶损失的方法。

May, 2023

基于几何意义的线性赌博机算法平衡性能和理论保证

该论文提出了一种基于数据驱动技术的算法，利用不确定椭球的几何性质追踪算法的习得性能，在不同的问题实例上实现实例相关的频率遗憾边界，从而实现算法实例纠错，并在保留基础算法大部分优良性质的同时，达到最小化讽刺性遗憾代价。

Jun, 2023

对抗语境强化学习的核化方法

通过将属于再现核希尔伯特空间的损失函数纳入到对手性线性背景乐队的在线学习问题的研究中，我们提出了一种计算有效的算法，该算法利用一种新的对损失函数进行乐观偏差估计的方法，在对底层内核进行的各种特征值衰减假设下实现接近最佳的后悔保证。

Oct, 2023

线性上下文强化学习的最佳算法

我们研究了针对K臂线性情境赌博机的最佳算法，无需先前对环境有所了解，在敌对和随机的情境下都能够提供接近最优的后悔边界。

Dec, 2023

关于局部隐私线性情境赌博机的最佳后悔

通过分析均值绝对偏差误差和分层主成分回归，我们展示了一种能够在局部隐私线性情境播放机中实现 O(√T) 累积遗憾上界的解决方案。

Apr, 2024