集成抽样

May, 2017

Ensemble Sampling

Xiuyuan Lu, Benjamin Van Roy

TL;DR本篇论文提出集成抽样（ensemble sampling）的方法来近似贝叶斯 “Thompson 抽样” 算法，从而使之适用于更复杂的模型，如神经网络，此方法保持了可计算性，扩展了该算法的应用范围，并给出实验验证和理论依据。

Abstract

thompson sampling has emerged as an effective heuristic for a broad range of online decision problems. In its basic form, the algorithm requires computing and sampling from a posterior distribution over models, w

thompson sampling online decision problems ensemble sampling neural networks computational results

发现论文，激发创造

基于认知神经网络的近似汤普森抽样

本文提出了一种名为 Epistemic 神经网络 (ENN) 的方法，通过准确的联合预测分布来近似输出预测分布来实现 TS，实验结果表明，ENN 可以相对准确地近似 TS，并且 extit {epinet} 可以用更低的计算成本与大型集合的性能相匹配。

Feb, 2023

Thompson 抽样教程

该论文介绍了 Thompson 采样算法在处理在线决策问题，尤其是在平衡当前性能和收集信息提高未来性能之间的探索与利用上的应用。该算法适用于各种问题并具有高效的计算能力，具体例子包括伯努利老虎机问题，最短路径问题，推荐系统，主动学习等。此外，本文还讨论了 Thompson 采样算法何时有效、何时无效以及与其他算法的关系。

Jul, 2017

带虚拟协助代理的汤普森抽样

文章提出了一种基于多臂赌博框架的在线顺序决策支持方法，利用 Thompson 抽样来平衡探索与利用的权衡，提出了两种算法用以解决多臂赌博问题，并在理论上给出了广义下界，通过实验证明了该方法在现实世界的数据集上表现的有效性。

Sep, 2022

超模型用于探索

研究使用超模型来表示认知不确定性并指导探索，通过神经网络模型的线性超模型得出，可以更加准确地近似 Thompson 采样，并使用更复杂的探索策略。

Jun, 2020

通过本地不确定性实现汤普森抽样

本文提出了一种新的基于概率建模的 Thompson sampling 框架，使用本地潜在变量不确定性来采样均值回报，并采用变分推理来近似本地变量的后验分布，在八个上下文匹配基准数据集上进行了实验，表明由本地不确定性引导的 Thompson 采样实现了最先进的性能，同时具有较低的计算复杂度。

Oct, 2019

深度贝叶斯赌博机对决：贝叶斯深度网络在汤普森抽样中的实证比较

本文主要研究了在复杂的情况下如何在深度强化学习中使用 Thompson 抽样框架的近似贝叶斯神经网络方法，发现在时序决策问题中许多在监督学习中表现良好的方法表现不佳。

Feb, 2018

广义汤普森抽样用于顺序决策和因果推断

该论文讨论了 Thompson 采样如何是贝叶斯策略不确定性建模的自然后果、如何用于多个自适应智能体之间的交互研究和如何应用于推断环境中的因果关系等，在自适应顺序决策和因果推断问题中可能不仅是有用的启发式方法，而且也是一个原则性的方法。

Mar, 2013

神经汤普森抽样

本文介绍了一种基于深度神经网络和贝叶斯推断的新型算法 —— 神经 Thompson Sampling (Neural Thompson Sampling)，并证明该算法的性能能够和同类算法相匹配，实验结果证实了该理论。

Oct, 2020

在线自助 Bootstrap 的汤普森抽样

介绍了一种改进的 Thompson sampling 方法 ——bootstrap Thompson sampling，通过引入 bootstrap 分布替换后验分布，提高了其在大规模 bandit 问题中的可扩展性和面对误分布的鲁棒性。

Oct, 2014

通过最优传输实现可扩展的汤普森抽样

本文提出了一种基于 Wasserstein 梯度流的分布优化技术来近似后验分布的方法，进而基于此框架发展出一种高效的基于粒子优化算法的 Thompson 抽样算法，既可应用于简单模型，也可扩展到神经网络等复杂模型，在合成数据和真实的大规模数据实验中表现出更卓越的性能。

Feb, 2019