基于认知神经网络的近似汤普森抽样

Feb, 2023

基于认知神经网络的近似汤普森抽样

Approximate Thompson Sampling via Epistemic Neural Networks

Ian Osband, Zheng Wen, Seyed Mohammad Asghari, Vikranth Dwaracherla, Morteza Ibrahimi...

TL;DR本文提出了一种名为 Epistemic 神经网络 (ENN) 的方法，通过准确的联合预测分布来近似输出预测分布来实现 TS，实验结果表明，ENN 可以相对准确地近似 TS，并且 extit {epinet} 可以用更低的计算成本与大型集合的性能相匹配。

Abstract

thompson sampling (TS) is a popular heuristic for action selection, but it requires sampling from a posterior distribution. Unfortunately, this can become computationally intractable in complex environments, such as those modeled using neural networks. →

thompson sampling approximate posterior samples epistemic neural networks predictive distributions computational cost

发现论文，激发创造

集成抽样

本篇论文提出集成抽样（ensemble sampling）的方法来近似贝叶斯 “Thompson 抽样” 算法，从而使之适用于更复杂的模型，如神经网络，此方法保持了可计算性，扩展了该算法的应用范围，并给出实验验证和理论依据。

May, 2017

神经汤普森抽样

本文介绍了一种基于深度神经网络和贝叶斯推断的新型算法 —— 神经 Thompson Sampling (Neural Thompson Sampling)，并证明该算法的性能能够和同类算法相匹配，实验结果证实了该理论。

Oct, 2020

图神经汤普森采样

我们提出了一种基于图神经网络和汤普森抽样算法的在线决策问题求解方法，该方法在估计奖励函数的平均值和不确定性估计方面利用了图神经网络近似器，并证明在一定奖励函数边界的假设下，该方法在交互轮次数量和有效维度上能够达到线性次数的亚线性遗憾界，并且与图节点数量无关。实证结果验证了我们提出的方法在图行动赌博问题上具有竞争力的表现并且能够良好地扩展。

Jun, 2024

深度贝叶斯赌博机对决：贝叶斯深度网络在汤普森抽样中的实证比较

本文主要研究了在复杂的情况下如何在深度强化学习中使用 Thompson 抽样框架的近似贝叶斯神经网络方法，发现在时序决策问题中许多在监督学习中表现良好的方法表现不佳。

Feb, 2018

超模型用于探索

研究使用超模型来表示认知不确定性并指导探索，通过神经网络模型的线性超模型得出，可以更加准确地近似 Thompson 采样，并使用更复杂的探索策略。

Jun, 2020

认知神经网络

本文介绍了一种能够辅助任何传统神经网络，包括大型预训练模型，能够用较少的计算量来预测不确定性的架构 ——epinet。使用 epinet，传统神经网络在预测标签上的表现优于包含数百个或更多粒子的非常大的许多集合，而且使用的计算资源和数据也大大降低了。

Jul, 2021

一种可证明有效的无模型后验采样方法，用于情节强化学习

本文提出了一种新的模型无关后验采样的公式，适用于更广泛的周期性强化学习问题，并通过新颖的证明技术，展示了在适当条件下，我们的后验采样方法的最坏后果可以与基于优化的方法的最优结果相匹配，尤其是在线性 MDP 设置中，我们的算法产生的遗憾与现有基于后验采样的探索算法相比，随着维度线性增长而非二次依赖。

Aug, 2022

Thompson 采样在 GFlowNets 中的应用提高探索性能

本文提出了一种基于多臂赌博机思想的贝叶斯技术算法（TS-GFN），将训练过程中的轨迹选择视为主动学习问题，从学习策略的近似后验分布中采样轨迹来提高探索效率，进而比过去的离线探索策略更快地收敛至目标分布，在两个领域的实验中证明了其优越性。

Jun, 2023

通过最优传输实现可扩展的汤普森抽样

本文提出了一种基于 Wasserstein 梯度流的分布优化技术来近似后验分布的方法，进而基于此框架发展出一种高效的基于粒子优化算法的 Thompson 抽样算法，既可应用于简单模型，也可扩展到神经网络等复杂模型，在合成数据和真实的大规模数据实验中表现出更卓越的性能。

Feb, 2019

基于近似采样的强化学习更高效的随机探索

这篇论文提出了一个算法框架，结合了不同的近似抽样方法和最近提出的 Feel-Good Thompson Sampling (FGTS) 方法，在线性 MDPs 中应用时，我们的遗憾分析得到了关于维度的最好依赖关系，超过了现有的随机算法。在一些需要进行深度探索的任务中，我们提出的将 FGTS 和近似抽样相结合的算法与其他强基准相比表现显著地更好。在 Atari 57 套件的几个具有挑战性的游戏中，我们的算法在性能上要么优于，要么与深度 RL 文献中的其他强基准相当。

Jun, 2024