对称性 alpha 稳定赌臂问题的汤普森采样

IJCAIJul, 2019

对称性 alpha 稳定赌臂问题的汤普森采样

Thompson Sampling on Symmetric $α$-Stable Bandits

Abhimanyu Dubey, Alex Pentland

TL;DR该文章重新考虑了 Thompson Sampling 算法在来自对称 α- 稳定分布的奖励下的应用，提出了一个有效的后验推断框架，证明了两种算法的有限时间遗憾界，并通过一系列的实验展示了 Thompson Sampling 在此环境中更强的性能。

Abstract

thompson sampling provides an efficient technique to introduce prior knowledge in the multi-armed bandit problem, along with providing remarkable empirical performance. In this paper, we revisit the →

thompson sampling multi-armed bandit problem symmetric alpha-stable distributions posterior inference bayesian inference

发现论文，激发创造

智能和适应后验采样算法用于二元选择

我们研究了基于 Thompson Sampling 的有界奖励随机赌博算法。为了解决现有的与高斯先验的 Thompson Sampling 相关的问题相关后悔界限在 T≤288e^64 时是虚无的问题，我们导出了一个更实用的界限，将主要项的系数从 288e^64 缩小到 1270。此外，我们提出了两种参数化的 Thompson Sampling 算法：带有模型聚合的 TS-MA-α 和带有时间战斗的 TS-TD-α，其中 α∈[0,1] 控制效用与计算之间的权衡。这两种算法都可以实现 O (Kln^(α+1)(T)/Δ) 的后悔界限，其中 K 是臂数量，T 是有限学习时段，Δ 表示拉动次优臂时的单轮性能损失。

May, 2024

预算多臂老虎机的汤普森抽样

本文将 Thompson sampling 算法扩展到预算限制的 MAB 中，通过从后验分布中采样两个数字并比较选择具有最大比值的手臂进行更新，证明此算法在伯努利臂或普通分布下的分布相关遗憾界都是在预算上对数复杂度，通过我们的仿真实验验证了该算法的有效性。

May, 2015

使用分数后验信息的汤普森抽样泛化遗憾分析

Thompson sampling (TS) is a popular algorithm for solving multi-armed bandit problems; this paper introduces a variant called $\alpha$-TS with tempered likelihoods in the posterior distribution, and provides regret bounds for both instance-dependent and instance-independent scenarios.

Sep, 2023

基于线性回报的情境型贝叶斯 - 汤普森抽样算法

本文设计和分析了一种基于贝叶斯思想的 Thompson Sampling 算法泛化版本，用于解决带有线性收益函数的随机上下文多臂老虎机问题，同时提供了该算法的第一理论保证，得到了最佳遗憾保证。

Sep, 2012

带虚拟协助代理的汤普森抽样

文章提出了一种基于多臂赌博框架的在线顺序决策支持方法，利用 Thompson 抽样来平衡探索与利用的权衡，提出了两种算法用以解决多臂赌博问题，并在理论上给出了广义下界，通过实验证明了该方法在现实世界的数据集上表现的有效性。

Sep, 2022

具有正态伽马先验的线性赌博机问题的汤普森取样算法

本文介绍了在正态分布奖励模型下使用贝叶斯推断方法的 Thompson 抽样算法在多臂赌博问题中的应用，通过使用多元正态分布 - 伽玛先验来表示所有相关参数的环境不确定性，并得出了关于 Thompson 抽样算法的贝叶斯遗憾界，其前提条件为方差分布的 5/2 阶矩存在。

Mar, 2023

多臂赌博问题中汤普森采样的分析

本文介绍了使用贝叶斯算法的 Thompson Sampling 原则，旨在在序贯决策问题中研究探索 / 开发权衡。该算法在实验证明接近最优，并展现了一些理想的特性，但对该算法的理论认识相当有限。本文第一次展示了 Thompson Sampling 算法在多臂赌博机问题中实现了对数级别的预期遗憾。

Nov, 2011

基于集群武器的汤普森抽样算法

该论文提出了基于多级 Thompson 抽样方案的算法，用于解决具有线性预期收益的上下文相关多臂赌博机及其聚类武器的问题。同时，理论和实证表明，利用特定的集群结构可以显著改善遗憾并降低计算成本。

Sep, 2021

进一步优化 Thompson Sampling 算法的后悔上界

使用贝叶斯方法的随机算法 Thompson Sampling 在多臂赌博问题中表现显著，本文提供了一种新的悔恨分析方法，同时证明了该算法在期望后悔上的问题特定界限和问题独立界限，方法简单且可适用于更广泛的 contestual bandits 设置。

Sep, 2012

Thompson 采样的先验敏感性

本文深入分析了 Thompson Sampling 算法中对先验分布选择的鲁棒性，发现在选择优先概率质量时，其遗憾上限与先验正判度呈 O (√T/p), 先验负判度呈 O (√(1-p) T), 并利用这些性质提出了一种基于鞅理论的新证明方法。

Jun, 2015