上下文广告带中的广义汤普森采样

Oct, 2013

上下文广告带中的广义汤普森采样

Generalized Thompson Sampling for Contextual Bandits

Lihong Li

TL;DR本文提出一种名为广义 Thompson Sampling 的新算法，将其作为专家学习框架下的一种启发式算法，其包括 Thompson Sampling 作为其特殊情况，并派生了一般性遗憾界，将其应用到广泛的情境性算法中，量化“先验”分布对遗憾界的影响。

Abstract

thompson sampling, one of the oldest heuristics for solving multi-armed bandits, has recently been shown to demonstrate state-of-the-art performance. The empirical success has led to great interests in theoretica

发现论文，激发创造

多臂赌博问题中汤普森采样的分析

本文介绍了使用贝叶斯算法的 Thompson Sampling 原则，旨在在序贯决策问题中研究探索/开发权衡。该算法在实验证明接近最优，并展现了一些理想的特性，但对该算法的理论认识相当有限。本文第一次展示了 Thompson Sampling 算法在多臂赌博机问题中实现了对数级别的预期遗憾。

Nov, 2011

基于线性回报的情境型贝叶斯-汤普森抽样算法

本文设计和分析了一种基于贝叶斯思想的Thompson Sampling算法泛化版本，用于解决带有线性收益函数的随机上下文多臂老虎机问题，同时提供了该算法的第一理论保证，得到了最佳遗憾保证。

Sep, 2012

进一步优化 Thompson Sampling 算法的后悔上界

使用贝叶斯方法的随机算法Thompson Sampling在多臂赌博问题中表现显著，本文提供了一种新的悔恨分析方法，同时证明了该算法在期望后悔上的问题特定界限和问题独立界限，方法简单且可适用于更广泛的contestual bandits设置。

Sep, 2012

预算多臂老虎机的汤普森抽样

本文将 Thompson sampling 算法扩展到预算限制的 MAB 中，通过从后验分布中采样两个数字并比较选择具有最大比值的手臂进行更新，证明此算法在伯努利臂或普通分布下的分布相关遗憾界都是在预算上对数复杂度，通过我们的仿真实验验证了该算法的有效性。

May, 2015

PG-TS：逻辑上下文多臂赌博机的改进汤普森抽样

本文提出了改进的Polya-Gamma配分的Thompson Sampling算法（PG-TS），通过使用一种快速推理程序，它可以解决逻辑上下文bandits的遗憾最小化问题，通过对环境特征协方差的后验分布的明确估计，能够使得PG-TS在类似情形下较传统算法快速收敛。

May, 2018

神经汤普森抽样

本文介绍了一种基于深度神经网络和贝叶斯推断的新型算法——神经 Thompson Sampling(Neural Thompson Sampling)，并证明该算法的性能能够和同类算法相匹配，实验结果证实了该理论。

Oct, 2020

感性良好的汤普森取样在上下文臂和强化学习中的应用

本文提出了一种改进的 Thompson Sampling 策略，在 frequentist 问题的设置下，通过理论分析及感性解释说明了如何缓解 TS 策略中探索不够的缺陷，并提供了 Bayesian Regret Bounds for TS 和 frequentist regret bounds for Feel-Good TS 的理论证明。基于在线最小二乘回归估计，使用在线聚合技术可以直接获得频率分析中的在线最小二乘回归估计回归界限，得到了与最小值下限的匹配，同时，该分析可以推广到一类线性嵌入式上下文匹配问题。

Oct, 2021

带虚拟协助代理的汤普森抽样

文章提出了一种基于多臂赌博框架的在线顺序决策支持方法，利用Thompson抽样来平衡探索与利用的权衡，提出了两种算法用以解决多臂赌博问题，并在理论上给出了广义下界，通过实验证明了该方法在现实世界的数据集上表现的有效性。

Sep, 2022

部分可观察情境下的汤普森抽样

基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用，通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题，为研究其他具有上下文信息和部分观测的决策问题铺平了道路。

Feb, 2024

智能和适应后验采样算法用于二元选择

我们研究了基于Thompson Sampling的有界奖励随机赌博算法。为了解决现有的与高斯先验的Thompson Sampling相关的问题相关后悔界限在T≤288e^64时是虚无的问题，我们导出了一个更实用的界限，将主要项的系数从288e^64缩小到1270。此外，我们提出了两种参数化的Thompson Sampling算法：带有模型聚合的TS-MA-α和带有时间战斗的TS-TD-α，其中α∈[0,1]控制效用与计算之间的权衡。这两种算法都可以实现O(Kln^(α+1)(T)/Δ)的后悔界限，其中K是臂数量，T是有限学习时段，Δ表示拉动次优臂时的单轮性能损失。

May, 2024