匹配市场中的赌博学习的汤普森抽样

Apr, 2022

匹配市场中的赌博学习的汤普森抽样

Thompson Sampling for Bandit Learning in Matching Markets

Fang Kong, Junming Yin, Shuai Li

TL;DR本文针对未知偏好的两侧市场匹配问题，提出了首个Thompson Sampling算法的回报分析，证明TS算法在实践中优于ETC和UCB算法。

Abstract

The problem of two-sided matching markets has a wide range of real-world applications and has been extensively studied in the literature. A line of recent works have focused on the problem setting where the preferences of one-side market participants are unknown \emph{a priori} and are

发现论文，激发创造

多臂赌博问题中汤普森采样的分析

本文介绍了使用贝叶斯算法的 Thompson Sampling 原则，旨在在序贯决策问题中研究探索/开发权衡。该算法在实验证明接近最优，并展现了一些理想的特性，但对该算法的理论认识相当有限。本文第一次展示了 Thompson Sampling 算法在多臂赌博机问题中实现了对数级别的预期遗憾。

Nov, 2011

基于线性回报的情境型贝叶斯-汤普森抽样算法

本文设计和分析了一种基于贝叶斯思想的Thompson Sampling算法泛化版本，用于解决带有线性收益函数的随机上下文多臂老虎机问题，同时提供了该算法的第一理论保证，得到了最佳遗憾保证。

Sep, 2012

进一步优化 Thompson Sampling 算法的后悔上界

使用贝叶斯方法的随机算法Thompson Sampling在多臂赌博问题中表现显著，本文提供了一种新的悔恨分析方法，同时证明了该算法在期望后悔上的问题特定界限和问题独立界限，方法简单且可适用于更广泛的contestual bandits设置。

Sep, 2012

预算多臂老虎机的汤普森抽样

本文将 Thompson sampling 算法扩展到预算限制的 MAB 中，通过从后验分布中采样两个数字并比较选择具有最大比值的手臂进行更新，证明此算法在伯努利臂或普通分布下的分布相关遗憾界都是在预算上对数复杂度，通过我们的仿真实验验证了该算法的有效性。

May, 2015

多组玩法随机多臂赌博问题中 Thompson 抽样的最优遗憾分析

本文提出了多次试验下的Thompson sampling方法（MP-TS）并对其进行了后效分析，证明了其具有与Anantharam等人提供的最佳后悔下界相匹配的最优后悔上界，并通过计算机模拟进行了验证。我们还提出了MP-TS的改进版本，并表明其具有更好的实际效果。

Jun, 2015

均值方差赌博机的汤普森采样算法

本文提出了针对均值-方差MAB问题的Thompson抽样算法，并在更少的假设条件下提供了高斯和伯努利bandit的全面损失分析。我们的算法在各种参数配置下都达到了最好的已知损失边界。

Feb, 2020

多任务赌博机中的稳健转移的汤普森取样

本研究针对具有相似但不完全相同的多臂赌博机环境中的在线多任务学习问题，研究了如何通过知识的健壮传递从而提高学习器在多个相关任务上的整体性能。我们提出了一种TS类型算法，对其进行了经验分析，并证明了它是几乎最优的。最后，我们将算法在合成数据上进行了评估，证明了TS类型算法在与基准算法和UCB算法的比较中具有卓越的经验性能。

Jun, 2022

带虚拟协助代理的汤普森抽样

文章提出了一种基于多臂赌博框架的在线顺序决策支持方法，利用Thompson抽样来平衡探索与利用的权衡，提出了两种算法用以解决多臂赌博问题，并在理论上给出了广义下界，通过实验证明了该方法在现实世界的数据集上表现的有效性。

Sep, 2022

非静态贪婪问题的折扣汤普森采样

本文提出了一种新的算法 Discounted Thompson Sampling (DS-TS) with Gaussian priors，用于解决非平稳多臂赌博机问题，并分析了算法在不同情况下的表现和 upper bound of regret。

May, 2023

智能和适应后验采样算法用于二元选择

我们研究了基于Thompson Sampling的有界奖励随机赌博算法。为了解决现有的与高斯先验的Thompson Sampling相关的问题相关后悔界限在T≤288e^64时是虚无的问题，我们导出了一个更实用的界限，将主要项的系数从288e^64缩小到1270。此外，我们提出了两种参数化的Thompson Sampling算法：带有模型聚合的TS-MA-α和带有时间战斗的TS-TD-α，其中α∈[0,1]控制效用与计算之间的权衡。这两种算法都可以实现O(Kln^(α+1)(T)/Δ)的后悔界限，其中K是臂数量，T是有限学习时段，Δ表示拉动次优臂时的单轮性能损失。

May, 2024