连续风险厌恶赌博机汤普森抽样的统一理论

AAAIAug, 2021

连续风险厌恶赌博机汤普森抽样的统一理论

A Unifying Theory of Thompson Sampling for Continuous Risk-Averse Bandits

Joel Q. L. Chang, Vincent Y. F. Tan

TL;DR本文提供了一种连续、优势风险函数 $ ho$ 的风险厌恶型 Thompson 抽样算法设计和分析方法，并证明了多项分布下基于连续优势风险函数的算法 $ ho$-MTS 的渐近最优遗憾界以及 Bernoulli 分布下基于经验分布性能度量的风险测度的渐近最优性，包括了广泛应用的风险测度如 CVaR、比例风险等；数值模拟验证了算法与基线遗憾界的接近度。

Abstract

This paper unifies the design and the analysis of risk-averse Thompson sampling algorithms for the multi-armed bandit problem for a class of risk functionals $\rho$ that are continuous and dominant. We prove gene

risk-averse thompson sampling multi-armed bandit problem regret bounds empirical distribution performance measures

发现论文，激发创造

支持感知 CVaR 赌博机的最优汤普森抽样策略

本文研究一种多臂赌博机问题，其中每个臂的质量是在奖励分布的某个水平 alpha 上通过条件风险价值（CVaR）来测量。我们引入了一种新的 CVaR 赌博机定理的 Thompson Sampling 方法，尤其适用于基于物理资源的问题。我们在理论上提供了它们 CVaR 损失的最小化性能的可行性分析，实验结果表明这些策略是第一个在 CVaR 赌博机中实现渐近最优性的，并匹配了此设置的相应渐近下限。

Dec, 2020

组合半臂老虎机的汤普森抽样

本文研究了 Thompson 采样方法在随机组合多臂赌博机框架中的应用，分析了多种算法的累积遗憾，并给出了上限界以及其他算法之间的比较结果。

Mar, 2018

进一步优化 Thompson Sampling 算法的后悔上界

使用贝叶斯方法的随机算法 Thompson Sampling 在多臂赌博问题中表现显著，本文提供了一种新的悔恨分析方法，同时证明了该算法在期望后悔上的问题特定界限和问题独立界限，方法简单且可适用于更广泛的 contestual bandits 设置。

Sep, 2012

使用分数后验信息的汤普森抽样泛化遗憾分析

Thompson sampling (TS) is a popular algorithm for solving multi-armed bandit problems; this paper introduces a variant called $\alpha$-TS with tempered likelihoods in the posterior distribution, and provides regret bounds for both instance-dependent and instance-independent scenarios.

Sep, 2023

使用单峰 Thompson 采样解决 Bernoulli 一阶臂赌博问题

本研究介绍了随机 Rank-One 赌博机，在证明了该算法的对数后悔率的同时，通过将 Rank-One 赌博机作为单峰赌博机的一个特例进行分析，提出了一种新的 Unimodal Thompson Sampling 算法，并证明了其频率后悔率的渐近最优界，通过模拟实验和结果对比，证明了我们方法相对于现有技术的显著改进。

Dec, 2019

智能和适应后验采样算法用于二元选择

我们研究了基于 Thompson Sampling 的有界奖励随机赌博算法。为了解决现有的与高斯先验的 Thompson Sampling 相关的问题相关后悔界限在 T≤288e^64 时是虚无的问题，我们导出了一个更实用的界限，将主要项的系数从 288e^64 缩小到 1270。此外，我们提出了两种参数化的 Thompson Sampling 算法：带有模型聚合的 TS-MA-α 和带有时间战斗的 TS-TD-α，其中 α∈[0,1] 控制效用与计算之间的权衡。这两种算法都可以实现 O (Kln^(α+1)(T)/Δ) 的后悔界限，其中 K 是臂数量，T 是有限学习时段，Δ 表示拉动次优臂时的单轮性能损失。

May, 2024

均值方差赌博机的汤普森采样算法

本文提出了针对均值 - 方差 MAB 问题的 Thompson 抽样算法，并在更少的假设条件下提供了高斯和伯努利 bandit 的全面损失分析。我们的算法在各种参数配置下都达到了最好的已知损失边界。

Feb, 2020

对称性 alpha 稳定赌臂问题的汤普森采样

该文章重新考虑了 Thompson Sampling 算法在来自对称 α- 稳定分布的奖励下的应用，提出了一个有效的后验推断框架，证明了两种算法的有限时间遗憾界，并通过一系列的实验展示了 Thompson Sampling 在此环境中更强的性能。

Jul, 2019

多组玩法随机多臂赌博问题中 Thompson 抽样的最优遗憾分析

本文提出了多次试验下的 Thompson sampling 方法（MP-TS）并对其进行了后效分析，证明了其具有与 Anantharam 等人提供的最佳后悔下界相匹配的最优后悔上界，并通过计算机模拟进行了验证。我们还提出了 MP-TS 的改进版本，并表明其具有更好的实际效果。

Jun, 2015

组合半臂老虎机的汤普森抽样的统计效率

本文研究了采用半智能反馈的随机组合多臂赌博机问题。研究中提出了解决对于两种不同分布情况下是否存在效率最优、渐进遗憾最小算法的问题。通过分别采用 Beta 先验和高斯先验对 Combinatorial Thompson Sampling 策略进行了分析，进而找到了这两种分布情况下的算法解决方案，从而得出计算效率上优于 Efficient Sampling for Combinatorial Bandit 策略的结论。

Jun, 2020