双重稳健套索赌博机

Jul, 2019

Doubly-Robust Lasso Bandit

Gi-Soo Kim, Myunghee Cho Paik

TL;DR提出了一种新的算法：Doubly-Robust Lasso Bandit algorithm，它利用线性回归参数的稀疏结构，融合在缺失数据文献中使用的双重稳健技术，解决了高维稀疏环境下多臂赌博机算法的问题，大大减少了调参数量和算法复杂度。

Abstract

contextual multi-armed bandit algorithms are widely used in sequential decision tasks such as news article recommendation systems, web page ad placement algorithms, and mobile health. Most of the existing algorithms have →

contextual multi-armed bandit algorithms stochastic linear contextual bandit problem sparse structure doubly-robust lasso bandit algorithm regret

发现论文，激发创造

阈值套索强化学习算法

本文提出一种基于阈值套索算法的 regret minimization 解决方案，能够更好地应对稀疏随机上下文线性赌博机问题，且不需要对稀疏度等参数有先验知识，理论上的性能约束也有所提高。

Oct, 2020

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

具有最优臂兼容条件的套索赌徒

这篇论文研究了一种稀疏线性的随机赌博问题，其中只有稀疏的上下文特征子集影响预期的回报函数。作者提出了一个算法，借助强制抽样技术，在单参数设置下表现出 polylog 的 dT 遗憾，相较于 Lasso 赌博算法，该算法假设更弱且性能更好。

Jun, 2024

广义线性背景下双重双重稳健汤普森抽样

提出了一种新颖的上下文强化学习算法，使用 double doubly-robust estimator 实现对所有上下文的独立性考虑，并在概率保证条件下证明了广义线性模型赌博机的后悔上限。

Sep, 2022

线性回报的双重稳健的汤普森抽样

本文提出一种名为 DR Thompson Sampling 的多臂上下文赌博算法，并利用缺失数据文献中使用的双重稳健估计器提供先验概率在最坏情况下的保证率和次均方误差，具体表现为对因变量和全部或几个自变量进行回归的误差。他们发现该方法在实践中的表现优于 LinTS。

Feb, 2021

针对对抗性线性情境赌博机的高效稳健算法

针对经典 $K$-armed 线性上下文对抗性问题，我们开发了基于 Exp3 算法的计算有效算法，其中包含实时算法和鲁棒算法，它们能够实现良好的失望保证，并且对于线性奖励函数而言具有稳健性。

Feb, 2020

稀疏不可知 Lasso Bandit

本文提出了一种算法来解决随机上下文赌博机问题，该问题中特征向量的维数可能很大，但仅有一个小的稀疏特征子集会影响奖励函数，该算法可以在不需要先前了解稀疏度的情况下使用，并在温和条件下，确立了性能方面的紧密后悔界限，同时，我们全面评估了我们提出的算法的性能，并表明即使将正确的稀疏度指数暴露给现有方法，但将其保持对我们算法隐藏，我们的算法也能始终优于现有方法。

Jul, 2020

鲁棒随机线性情境臂带在对抗攻击下的应用

提出了第一个针对全面适应性攻击的稳健性线性上下文 bandit 算法，其不仅可以抵御回报攻击，还可以抵御袭击环境，提高了对各种流行攻击的稳健性。

Jun, 2021

稀疏线性动态单臂赌博问题的协作阈值套索算法

本文提出了一种用于解决多智能体稀疏背景下的上下文线性赌博问题的新方法，通过使用 Lasso 回归进行维度缩减、回归进行问题解决、结合特定过程和网络结构共享信息，达到降低通信成本、保证最小累计遗憾值的效果，并在合成和真实场景下验证了方法的有效性。

May, 2023

非参数随机情境臂机

探讨 K-armed bandit 问题下的 noisy reward，提出了一种简单实用的算法（kNN-UCB），并得到了紧密的 top-arm identification 和 sublinear regret 边界，并讨论了该算法的全局 intrisinic dimension 和 ambient dimension 的 regret 边界，同时介绍了对于无限武装情境下 bandit 算法的扩展和实验证明了算法在多种任务上的优越性。

Jan, 2018