引导式汤普森抽样与深度探索

Jul, 2015

Bootstrapped Thompson Sampling and Deep Exploration

Ian Osband, Benjamin Van Roy

TL;DR本文介绍了一种基于 Bootstrap 技术的新方法，该方法可用于进行类似于 Thompson 抽样的探索，但是不需要显式地维护或从后验分布中采样。该方法特别适用于探索与深度学习耦合的情况。

Abstract

This technical note presents a new approach to carrying out the kind of exploration achieved by thompson sampling, but without explicitly maintaining or sampling from posterior distributions. The approach is based on a bootstrap technique that uses a combination of observed and artific

thompson sampling bootstrap technique multi-armed bandit reinforcement learning deep learning

发现论文，激发创造

深度贝叶斯赌博机对决：贝叶斯深度网络在汤普森抽样中的实证比较

本文主要研究了在复杂的情况下如何在深度强化学习中使用 Thompson 抽样框架的近似贝叶斯神经网络方法，发现在时序决策问题中许多在监督学习中表现良好的方法表现不佳。

Feb, 2018

带虚拟协助代理的汤普森抽样

文章提出了一种基于多臂赌博框架的在线顺序决策支持方法，利用 Thompson 抽样来平衡探索与利用的权衡，提出了两种算法用以解决多臂赌博问题，并在理论上给出了广义下界，通过实验证明了该方法在现实世界的数据集上表现的有效性。

Sep, 2022

在线自助 Bootstrap 的汤普森抽样

介绍了一种改进的 Thompson sampling 方法 ——bootstrap Thompson sampling，通过引入 bootstrap 分布替换后验分布，提高了其在大规模 bandit 问题中的可扩展性和面对误分布的鲁棒性。

Oct, 2014

一种可证明有效的无模型后验采样方法，用于情节强化学习

本文提出了一种新的模型无关后验采样的公式，适用于更广泛的周期性强化学习问题，并通过新颖的证明技术，展示了在适当条件下，我们的后验采样方法的最坏后果可以与基于优化的方法的最优结果相匹配，尤其是在线性 MDP 设置中，我们的算法产生的遗憾与现有基于后验采样的探索算法相比，随着维度线性增长而非二次依赖。

Aug, 2022

神经汤普森抽样

本文介绍了一种基于深度神经网络和贝叶斯推断的新型算法 —— 神经 Thompson Sampling (Neural Thompson Sampling)，并证明该算法的性能能够和同类算法相匹配，实验结果证实了该理论。

Oct, 2020

最优探索与汤普森抽样同等难度

该论文提出了一种利用采样和 argmax oracle 来实现指数收敛率的算法，以解决纯探索线性赌博问题，并证明了该算法在实践中与现有的渐近最优方法相当。

Oct, 2023

可证明且实用：通过 Langevin Monte Carlo 实现强化学习中的高效探索

本文提出了一种基于 Thompson 采样的可扩展和有效的强化学习策略，通过使用 Langevin Monte Carlo 从其后验分布中直接抽取 Q 函数，该方法只需进行嘈杂的梯度下降更新即可学习 Q 函数的精确后验分布，在深度 RL 中易于部署，取得了优于或类似于 Atari57 套件上现有深度 RL 算法的结果。

May, 2023

集成抽样

本篇论文提出集成抽样（ensemble sampling）的方法来近似贝叶斯 “Thompson 抽样” 算法，从而使之适用于更复杂的模型，如神经网络，此方法保持了可计算性，扩展了该算法的应用范围，并给出实验验证和理论依据。

May, 2017

基于近似采样的强化学习更高效的随机探索

这篇论文提出了一个算法框架，结合了不同的近似抽样方法和最近提出的 Feel-Good Thompson Sampling (FGTS) 方法，在线性 MDPs 中应用时，我们的遗憾分析得到了关于维度的最好依赖关系，超过了现有的随机算法。在一些需要进行深度探索的任务中，我们提出的将 FGTS 和近似抽样相结合的算法与其他强基准相比表现显著地更好。在 Atari 57 套件的几个具有挑战性的游戏中，我们的算法在性能上要么优于，要么与深度 RL 文献中的其他强基准相当。

Jun, 2024

BBQ-Networks: 面向任务型对话系统的深度强化学习高效探索

该研究提出了一种新算法，通过 Thompson 采样和 Bayes-by-Backprop 神经网络，可以显著提高深度 Q 学习代理在对话系统中的探索效率，并表明混合已成功经历的 episode 的回放池可以使 Q 学习成为可能。

Aug, 2016