线性回报的双重稳健的汤普森抽样

Feb, 2021

线性回报的双重稳健的汤普森抽样

Doubly robust Thompson sampling for linear payoffs

Wonyoung Kim, Gi-soo Kim, Myunghee Cho Paik

TL;DR本文提出一种名为 DR Thompson Sampling 的多臂上下文赌博算法，并利用缺失数据文献中使用的双重稳健估计器提供先验概率在最坏情况下的保证率和次均方误差，具体表现为对因变量和全部或几个自变量进行回归的误差。他们发现该方法在实践中的表现优于 LinTS。

Abstract

A challenging aspect of the bandit problem is that a stochastic reward is observed only for the chosen arm and the rewards of other arms remain missing. The dependence of the arm choice on the past context and reward pairs compounds the complexity of regret analysis. We propose a novel

multi-armed contextual bandit algorithm doubly-robust estimator regret analysis thompson sampling covariance matrix

发现论文，激发创造

广义线性背景下双重双重稳健汤普森抽样

提出了一种新颖的上下文强化学习算法，使用 double doubly-robust estimator 实现对所有上下文的独立性考虑，并在概率保证条件下证明了广义线性模型赌博机的后悔上限。

Sep, 2022

基于线性回报的情境型贝叶斯 - 汤普森抽样算法

本文设计和分析了一种基于贝叶斯思想的 Thompson Sampling 算法泛化版本，用于解决带有线性收益函数的随机上下文多臂老虎机问题，同时提供了该算法的第一理论保证，得到了最佳遗憾保证。

Sep, 2012

部分可观察情境下的汤普森抽样

基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用，通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题，为研究其他具有上下文信息和部分观测的决策问题铺平了道路。

Feb, 2024

双重稳健套索赌博机

提出了一种新的算法：Doubly-Robust Lasso Bandit algorithm，它利用线性回归参数的稀疏结构，融合在缺失数据文献中使用的双重稳健技术，解决了高维稀疏环境下多臂赌博机算法的问题，大大减少了调参数量和算法复杂度。

Jul, 2019

线性汤普森抽样再探

在随机线性赌博机问题中，我们为 Thompson 采样的后悔证明提供了一种替代证明方法。我们展示了后悔与目标函数的敏感性有关，并且选取与乐观参数相关的最优臂可以控制后悔，在具有固定概率为乐观的采样分布下来看，Thompson 采样可以作为一种通用的随机化算法。我们还证明了这个理论可以轻松应用到正则化线性优化和广义线性模型问题中。

Nov, 2016

PG-TS：逻辑上下文多臂赌博机的改进汤普森抽样

本文提出了改进的 Polya-Gamma 配分的 Thompson Sampling 算法（PG-TS），通过使用一种快速推理程序，它可以解决逻辑上下文 bandits 的遗憾最小化问题，通过对环境特征协方差的后验分布的明确估计，能够使得 PG-TS 在类似情形下较传统算法快速收敛。

May, 2018

神经汤普森抽样

本文介绍了一种基于深度神经网络和贝叶斯推断的新型算法 —— 神经 Thompson Sampling (Neural Thompson Sampling)，并证明该算法的性能能够和同类算法相匹配，实验结果证实了该理论。

Oct, 2020

基于集群武器的汤普森抽样算法

该论文提出了基于多级 Thompson 抽样方案的算法，用于解决具有线性预期收益的上下文相关多臂赌博机及其聚类武器的问题。同时，理论和实证表明，利用特定的集群结构可以显著改善遗憾并降低计算成本。

Sep, 2021

进一步优化 Thompson Sampling 算法的后悔上界

使用贝叶斯方法的随机算法 Thompson Sampling 在多臂赌博问题中表现显著，本文提供了一种新的悔恨分析方法，同时证明了该算法在期望后悔上的问题特定界限和问题独立界限，方法简单且可适用于更广泛的 contestual bandits 设置。

Sep, 2012

上下文广告带中的广义汤普森采样

本文提出一种名为广义 Thompson Sampling 的新算法，将其作为专家学习框架下的一种启发式算法，其包括 Thompson Sampling 作为其特殊情况，并派生了一般性遗憾界，将其应用到广泛的情境性算法中，量化 “先验” 分布对遗憾界的影响。

Oct, 2013