ε- 贪婪汤普森采样用于贝叶斯优化

Mar, 2024

ε- 贪婪汤普森采样用于贝叶斯优化

Epsilon-Greedy Thompson Sampling to Bayesian Optimization

Bach Do, Ruda Zhang

TL;DR改良的 Thompson 抽样方法（TS）在贝叶斯优化（BO）中解决了利用 - 探索困境问题，在通过随机生成和最大化高斯过程（GP）后验样本路径来优先进行探索的同时，引入了 epsilon-greedy 策略来管理其利用，该策略随机在两种极端之间切换，从而平衡了两者的需求，并通过实验证明了该方法的有效性。

Abstract

thompson sampling (TS) serves as a solution for addressing the exploitation-exploration dilemma in bayesian optimization (BO). While it pr

thompson sampling exploitation-exploration dilemma bayesian optimization epsilon-greedy policy reinforcement learning

发现论文，激发创造

基于近似采样的强化学习更高效的随机探索

这篇论文提出了一个算法框架，结合了不同的近似抽样方法和最近提出的 Feel-Good Thompson Sampling (FGTS) 方法，在线性 MDPs 中应用时，我们的遗憾分析得到了关于维度的最好依赖关系，超过了现有的随机算法。在一些需要进行深度探索的任务中，我们提出的将 FGTS 和近似抽样相结合的算法与其他强基准相比表现显著地更好。在 Atari 57 套件的几个具有挑战性的游戏中，我们的算法在性能上要么优于，要么与深度 RL 文献中的其他强基准相当。

Jun, 2024

利用稀疏高斯过程模型实现可扩展的汤普森抽样

本文提出了一种基于稀疏高斯过程模型实现的可扩展 Thompson 抽样算法，通过理论证明和实验验证表明该算法不会损失标准 Thompson 抽样算法的遗憾性能，并成功地应用于高通量分子设计任务等实际问题。

Jun, 2020

高斯赌博机的 Thompson 抽样策略的最优性取决于先验知识

探讨多参数模型中 normal distribution 模型下 Thompson sampling 算法的优化问题及其 prior 选择的影响

Nov, 2013

通过 Thompson Sampling 进行异步并行贝叶斯优化

设计并分析了变化的经典 Thompson sampling 算法以用于贝叶斯优化，并在设置中对其进行了比较，其中函数评估代价高但可以并行执行，在时间约束下，异步并行 TS 相对于同步和顺序版本具有渐进性更低的后悔，同时在卷积神经网络的超参数调整应用中，比现有并行 BO 算法表现更好，更加简单。

May, 2017

样本后优化批量神经汤普森采样

文章提供了 Sample-Then-Optimize 批量神经 TS (STO-BNTS) 和 STO-BNTS-Linear 算法，这两种算法可以使用高度表达性的神经网络作为替代模型，绕开了推论参数矩阵的限制，并且在某些情况下具有渐近的无后悔算法证明。

Oct, 2022

智能和适应后验采样算法用于二元选择

我们研究了基于 Thompson Sampling 的有界奖励随机赌博算法。为了解决现有的与高斯先验的 Thompson Sampling 相关的问题相关后悔界限在 T≤288e^64 时是虚无的问题，我们导出了一个更实用的界限，将主要项的系数从 288e^64 缩小到 1270。此外，我们提出了两种参数化的 Thompson Sampling 算法：带有模型聚合的 TS-MA-α 和带有时间战斗的 TS-TD-α，其中 α∈[0,1] 控制效用与计算之间的权衡。这两种算法都可以实现 O (Kln^(α+1)(T)/Δ) 的后悔界限，其中 K 是臂数量，T 是有限学习时段，Δ 表示拉动次优臂时的单轮性能损失。

May, 2024

使用分数后验信息的汤普森抽样泛化遗憾分析

Thompson sampling (TS) is a popular algorithm for solving multi-armed bandit problems; this paper introduces a variant called $\alpha$-TS with tempered likelihoods in the posterior distribution, and provides regret bounds for both instance-dependent and instance-independent scenarios.

Sep, 2023

图神经汤普森采样

我们提出了一种基于图神经网络和汤普森抽样算法的在线决策问题求解方法，该方法在估计奖励函数的平均值和不确定性估计方面利用了图神经网络近似器，并证明在一定奖励函数边界的假设下，该方法在交互轮次数量和有效维度上能够达到线性次数的亚线性遗憾界，并且与图节点数量无关。实证结果验证了我们提出的方法在图行动赌博问题上具有竞争力的表现并且能够良好地扩展。

Jun, 2024

PG-TS：逻辑上下文多臂赌博机的改进汤普森抽样

本文提出了改进的 Polya-Gamma 配分的 Thompson Sampling 算法（PG-TS），通过使用一种快速推理程序，它可以解决逻辑上下文 bandits 的遗憾最小化问题，通过对环境特征协方差的后验分布的明确估计，能够使得 PG-TS 在类似情形下较传统算法快速收敛。

May, 2018

组合半匪难度分析及 Thompson 抽样策略与贪心算法的应用

本文研究了在贪心算法下 Thompson sampling（TS）在组合多臂赌博问题（CMAB）中的行为，证明了 TS 可以在近似算法的预测下解决 CMAB 问题，并提供了渐近匹配的后悔上限。

Nov, 2021