引导式汤普森抽样与深度探索
本文主要研究了在复杂的情况下如何在深度强化学习中使用 Thompson 抽样框架的近似贝叶斯神经网络方法,发现在时序决策问题中许多在监督学习中表现良好的方法表现不佳。
Feb, 2018
文章提出了一种基于多臂赌博框架的在线顺序决策支持方法,利用 Thompson 抽样来平衡探索与利用的权衡,提出了两种算法用以解决多臂赌博问题,并在理论上给出了广义下界,通过实验证明了该方法在现实世界的数据集上表现的有效性。
Sep, 2022
介绍了一种改进的 Thompson sampling 方法 ——bootstrap Thompson sampling,通过引入 bootstrap 分布替换后验分布,提高了其在大规模 bandit 问题中的可扩展性和面对误分布的鲁棒性。
Oct, 2014
本文提出了一种新的模型无关后验采样的公式,适用于更广泛的周期性强化学习问题,并通过新颖的证明技术,展示了在适当条件下,我们的后验采样方法的最坏后果可以与基于优化的方法的最优结果相匹配,尤其是在线性 MDP 设置中,我们的算法产生的遗憾与现有基于后验采样的探索算法相比,随着维度线性增长而非二次依赖。
Aug, 2022
本文介绍了一种基于深度神经网络和贝叶斯推断的新型算法 —— 神经 Thompson Sampling (Neural Thompson Sampling),并证明该算法的性能能够和同类算法相匹配,实验结果证实了该理论。
Oct, 2020
该论文提出了一种利用采样和 argmax oracle 来实现指数收敛率的算法,以解决纯探索线性赌博问题,并证明了该算法在实践中与现有的渐近最优方法相当。
Oct, 2023
本文提出了一种基于 Thompson 采样的可扩展和有效的强化学习策略,通过使用 Langevin Monte Carlo 从其后验分布中直接抽取 Q 函数,该方法只需进行嘈杂的梯度下降更新即可学习 Q 函数的精确后验分布,在深度 RL 中易于部署,取得了优于或类似于 Atari57 套件上现有深度 RL 算法的结果。
May, 2023
本篇论文提出集成抽样(ensemble sampling)的方法来近似贝叶斯 “Thompson 抽样” 算法,从而使之适用于更复杂的模型,如神经网络,此方法保持了可计算性,扩展了该算法的应用范围,并给出实验验证和理论依据。
May, 2017
这篇论文提出了一个算法框架,结合了不同的近似抽样方法和最近提出的 Feel-Good Thompson Sampling (FGTS) 方法,在线性 MDPs 中应用时,我们的遗憾分析得到了关于维度的最好依赖关系,超过了现有的随机算法。在一些需要进行深度探索的任务中,我们提出的将 FGTS 和近似抽样相结合的算法与其他强基准相比表现显著地更好。在 Atari 57 套件的几个具有挑战性的游戏中,我们的算法在性能上要么优于,要么与深度 RL 文献中的其他强基准相当。
Jun, 2024
该研究提出了一种新算法,通过 Thompson 采样和 Bayes-by-Backprop 神经网络,可以显著提高深度 Q 学习代理在对话系统中的探索效率,并表明混合已成功经历的 episode 的回放池可以使 Q 学习成为可能。
Aug, 2016