基于观测数据的贝叶斯泰普森抽样策略成功地平衡了探索和利用,通过引入新的鞅技术和浓厚不等式解决了部分观测相关随机变量的问题,为研究其他具有上下文信息和部分观测的决策问题铺平了道路。
Feb, 2024
本文提出一种名为广义 Thompson Sampling 的新算法,将其作为专家学习框架下的一种启发式算法,其包括 Thompson Sampling 作为其特殊情况,并派生了一般性遗憾界,将其应用到广泛的情境性算法中,量化 “先验” 分布对遗憾界的影响。
Oct, 2013
本文提出一种名为 DR Thompson Sampling 的多臂上下文赌博算法,并利用缺失数据文献中使用的双重稳健估计器提供先验概率在最坏情况下的保证率和次均方误差,具体表现为对因变量和全部或几个自变量进行回归的误差。他们发现该方法在实践中的表现优于 LinTS。
Feb, 2021
本文介绍了使用贝叶斯算法的 Thompson Sampling 原则,旨在在序贯决策问题中研究探索 / 开发权衡。该算法在实验证明接近最优,并展现了一些理想的特性,但对该算法的理论认识相当有限。本文第一次展示了 Thompson Sampling 算法在多臂赌博机问题中实现了对数级别的预期遗憾。
Nov, 2011
本文介绍了一种基于深度神经网络和贝叶斯推断的新型算法 —— 神经 Thompson Sampling (Neural Thompson Sampling),并证明该算法的性能能够和同类算法相匹配,实验结果证实了该理论。
Oct, 2020
使用贝叶斯方法的随机算法 Thompson Sampling 在多臂赌博问题中表现显著,本文提供了一种新的悔恨分析方法,同时证明了该算法在期望后悔上的问题特定界限和问题独立界限,方法简单且可适用于更广泛的 contestual bandits 设置。
Sep, 2012
该论文提出了基于多级 Thompson 抽样方案的算法,用于解决具有线性预期收益的上下文相关多臂赌博机及其聚类武器的问题。同时,理论和实证表明,利用特定的集群结构可以显著改善遗憾并降低计算成本。
Sep, 2021
我们研究了一种随机情境线性赌博机问题,代理人通过一个未知噪声参数的噪声信道观察到真实情境的有噪声、损坏的版本。我们的目标是设计一种行动策略,可以近似一个能够获取奖励模型、信道参数以及根据观察到的有噪声情境从真实情境得到预测分布的神谕的行动策略。我们在贝叶斯框架下引入了一种基于高斯情境噪声的汤普森采样算法。采用信息论分析,对于神谕的行动策略,我们证明了该算法的贝叶斯遗憾。我们还将这个问题扩展到当代理人在接收到奖励之后,以一定延迟观察到真实情境的情景,并展示了延迟真实情境会导致更低的贝叶斯遗憾。最后,我们通过与基准算法进行实证研究,展示了所提出算法的性能。
Jan, 2024
本文将 Thompson sampling 算法扩展到预算限制的 MAB 中,通过从后验分布中采样两个数字并比较选择具有最大比值的手臂进行更新,证明此算法在伯努利臂或普通分布下的分布相关遗憾界都是在预算上对数复杂度,通过我们的仿真实验验证了该算法的有效性。
May, 2015
本文提出了一种新的 Thompson sampling 算法来处理有多个竞争目标和辅助约束的情景下的多结果上下文强化学习问题,并使用贝叶斯优化提供了在实践中导航安全性和性能权衡的方法。
Nov, 2019