具有最优臂兼容条件的套索赌徒

Jun, 2024

Lasso Bandit with Compatibility Condition on Optimal Arm

Harin Lee, Taehyun Hwang, Min-hwan Oh

TL;DR这篇论文研究了一种稀疏线性的随机赌博问题，其中只有稀疏的上下文特征子集影响预期的回报函数。作者提出了一个算法，借助强制抽样技术，在单参数设置下表现出 polylog 的 dT 遗憾，相较于 Lasso 赌博算法，该算法假设更弱且性能更好。

Abstract

We consider a stochastic sparse linear bandit problem where only a sparse subset of context features affects the expected reward function, i.e., the unknown reward parameter has sparse structure. In the existing

stochastic sparse linear bandit reward parameter lasso bandit regret bounds forced-sampling technique

发现论文，激发创造

双重稳健套索赌博机

提出了一种新的算法：Doubly-Robust Lasso Bandit algorithm，它利用线性回归参数的稀疏结构，融合在缺失数据文献中使用的双重稳健技术，解决了高维稀疏环境下多臂赌博机算法的问题，大大减少了调参数量和算法复杂度。

Jul, 2019

阈值套索强化学习算法

本文提出一种基于阈值套索算法的 regret minimization 解决方案，能够更好地应对稀疏随机上下文线性赌博机问题，且不需要对稀疏度等参数有先验知识，理论上的性能约束也有所提高。

Oct, 2020

稀疏不可知 Lasso Bandit

本文提出了一种算法来解决随机上下文赌博机问题，该问题中特征向量的维数可能很大，但仅有一个小的稀疏特征子集会影响奖励函数，该算法可以在不需要先前了解稀疏度的情况下使用，并在温和条件下，确立了性能方面的紧密后悔界限，同时，我们全面评估了我们提出的算法的性能，并表明即使将正确的稀疏度指数暴露给现有方法，但将其保持对我们算法隐藏，我们的算法也能始终优于现有方法。

Jul, 2020

稀疏线性动态单臂赌博问题的协作阈值套索算法

本文提出了一种用于解决多智能体稀疏背景下的上下文线性赌博问题的新方法，通过使用 Lasso 回归进行维度缩减、回归进行问题解决、结合特定过程和网络结构共享信息，达到降低通信成本、保证最小累计遗憾值的效果，并在合成和真实场景下验证了方法的有效性。

May, 2023

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

具有有限适应性和学习分布最优设计的线性赌臂机

本研究对线性上下文臂、受限的适应性模型和最优遗憾进行了研究，发现在批次学习模型中只需要 O（log log T）批次进行学习，但在策略转换限制下需 O（dlogdlogT）次策略转换才能达到最优遗憾。

Jul, 2020

带线性约束的随机赌博机

本文研究了一个约束的上下文线性赌博机问题，提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限，针对多臂赌博机情况提出了高效算法，同时给出了问题的下限和模拟结果。

Jun, 2020

上下文臂选择模型

介绍了在上下文密集应用中的模型选择问题及其解决方案，该方案适用于线性上下文密集应用，并在先验知识下达到了较低的后验概率。

Jun, 2019

高维稀疏线性赌博机

研究高维稀疏特征的随机线性臂模型中，在数据匮乏的情况下，特征向量遵守固定的探测分布，通过探索然后提交算法，得到了 $Ω(n^{2/3})$ 的无维度极小遗憾下界和 $Θ(n^{2/3})$ 的上界。

Nov, 2020

针对随机线性赌博机的问题复杂度自适应模型选择

本文旨在解决两个流行的随机线性赌博机问题的模型选择问题，并提出了一种算法来适应未知的问题复杂性，其利用参数范数作为线性赌博机模型选择的标准，以帮助选择正确的模型。

Jun, 2020