具备辅助安全限制的上下文强盗问题的汤普森抽样

Nov, 2019

具备辅助安全限制的上下文强盗问题的汤普森抽样

Thompson Sampling for Contextual Bandit Problems with Auxiliary Safety Constraints

Samuel Daulton, Shaun Singh, Vashist Avadhanula, Drew Dimmery, Eytan Bakshy

TL;DR本文提出了一种新的 Thompson sampling 算法来处理有多个竞争目标和辅助约束的情景下的多结果上下文强化学习问题，并使用贝叶斯优化提供了在实践中导航安全性和性能权衡的方法。

Abstract

Recent advances in contextual bandit optimization and reinforcement learning have garnered interest in applying these methods to real-world sequential decision making problems. Real-world applications frequently

contextual bandit optimization reinforcement learning multi-objective optimization thompson sampling bayesian optimization

发现论文，激发创造

基于线性回报的情境型贝叶斯 - 汤普森抽样算法

本文设计和分析了一种基于贝叶斯思想的 Thompson Sampling 算法泛化版本，用于解决带有线性收益函数的随机上下文多臂老虎机问题，同时提供了该算法的第一理论保证，得到了最佳遗憾保证。

Sep, 2012

部分可观察情境下的汤普森抽样

基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用，通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题，为研究其他具有上下文信息和部分观测的决策问题铺平了道路。

Feb, 2024

多臂情境赌博机的变分推断

利用变分推理方法，克服了 Thompson sampling 算法在模型设计和复杂性上的局限性，为复杂环境下的强化学习问题提供了可靠的解决方案。

Sep, 2017

带虚拟协助代理的汤普森抽样

文章提出了一种基于多臂赌博框架的在线顺序决策支持方法，利用 Thompson 抽样来平衡探索与利用的权衡，提出了两种算法用以解决多臂赌博问题，并在理论上给出了广义下界，通过实验证明了该方法在现实世界的数据集上表现的有效性。

Sep, 2022

上下文广告带中的广义汤普森采样

本文提出一种名为广义 Thompson Sampling 的新算法，将其作为专家学习框架下的一种启发式算法，其包括 Thompson Sampling 作为其特殊情况，并派生了一般性遗憾界，将其应用到广泛的情境性算法中，量化 “先验” 分布对遗憾界的影响。

Oct, 2013

基于信息论的噪声上下文随机赌博机的汤普森抽样算法的遗憾分析

我们研究了一种随机情境线性赌博机问题，代理人通过一个未知噪声参数的噪声信道观察到真实情境的有噪声、损坏的版本。我们的目标是设计一种行动策略，可以近似一个能够获取奖励模型、信道参数以及根据观察到的有噪声情境从真实情境得到预测分布的神谕的行动策略。我们在贝叶斯框架下引入了一种基于高斯情境噪声的汤普森采样算法。采用信息论分析，对于神谕的行动策略，我们证明了该算法的贝叶斯遗憾。我们还将这个问题扩展到当代理人在接收到奖励之后，以一定延迟观察到真实情境的情景，并展示了延迟真实情境会导致更低的贝叶斯遗憾。最后，我们通过与基准算法进行实证研究，展示了所提出算法的性能。

Jan, 2024

具有子高斯奖励的上下文强盗问题的 Thompson 抽样遗憾边界

本文基于 Neu 等人引进的抬升信息比率，研究 Thompson Sampling 算法在情境赌博问题中的性能，并证明了李环境参数和历史的互信息的综合界限，并提出适用于亚高斯奖励子集的抬升信息率新界限，推广了 Neu 等人的研究，最后为无结构有界情境赌徒、带有拉普拉斯似然函数的结构有界情境赌徒、有界线性情境赌徒和结构性伯努利赌徒提供了明确的后悔界限。

Apr, 2023

线性背景和组合行动激励探索

本文章主要研究了激励式赌博探索中的贝叶斯激励兼容问题，探讨了线性赌博的 Thompson 抽样算法和半赌博模型下的初始数据收集阶段的样本复杂度问题。

Jun, 2023

上下文关注的赌博机：具有限制上下文的上下文赌徒

该论文探讨了一种新颖的 “限制上下文条件下的上下文赌博机” 模型，其中将 Thompson 抽样算法用于处理固定状态和非固定状态，该方法在临床试验、推荐系统和注意力建模中有较大应用。实验证明了提出方法在多个真实数据集上优势明显。

May, 2017

基于 Langevin Monte Carlo 的上下文多臂赌博机算法

探究 Thompson 抽样算法在上下文强化学习中的效率，提出了一种使用 Langevin Monte Carlo 和 Markov Chain Monte Carlo 方法直接从后验分布进行采样的算法，避免了高维情况下对后验分布的高斯近似，证明了其具有与传统 Thompson 抽样算法相同的次线性变化速度，实验证明了直接采样方法在性能和计算效率上的优势。

Jun, 2022