基于认知神经网络的近似汤普森抽样
本篇论文提出集成抽样(ensemble sampling)的方法来近似贝叶斯 “Thompson 抽样” 算法,从而使之适用于更复杂的模型,如神经网络,此方法保持了可计算性,扩展了该算法的应用范围,并给出实验验证和理论依据。
May, 2017
本文介绍了一种基于深度神经网络和贝叶斯推断的新型算法 —— 神经 Thompson Sampling (Neural Thompson Sampling),并证明该算法的性能能够和同类算法相匹配,实验结果证实了该理论。
Oct, 2020
我们提出了一种基于图神经网络和汤普森抽样算法的在线决策问题求解方法,该方法在估计奖励函数的平均值和不确定性估计方面利用了图神经网络近似器,并证明在一定奖励函数边界的假设下,该方法在交互轮次数量和有效维度上能够达到线性次数的亚线性遗憾界,并且与图节点数量无关。实证结果验证了我们提出的方法在图行动赌博问题上具有竞争力的表现并且能够良好地扩展。
Jun, 2024
本文主要研究了在复杂的情况下如何在深度强化学习中使用 Thompson 抽样框架的近似贝叶斯神经网络方法,发现在时序决策问题中许多在监督学习中表现良好的方法表现不佳。
Feb, 2018
本文介绍了一种能够辅助任何传统神经网络,包括大型预训练模型,能够用较少的计算量来预测不确定性的架构 ——epinet。使用 epinet,传统神经网络在预测标签上的表现优于包含数百个或更多粒子的非常大的许多集合,而且使用的计算资源和数据也大大降低了。
Jul, 2021
本文提出了一种新的模型无关后验采样的公式,适用于更广泛的周期性强化学习问题,并通过新颖的证明技术,展示了在适当条件下,我们的后验采样方法的最坏后果可以与基于优化的方法的最优结果相匹配,尤其是在线性 MDP 设置中,我们的算法产生的遗憾与现有基于后验采样的探索算法相比,随着维度线性增长而非二次依赖。
Aug, 2022
本文提出了一种基于多臂赌博机思想的贝叶斯技术算法(TS-GFN),将训练过程中的轨迹选择视为主动学习问题,从学习策略的近似后验分布中采样轨迹来提高探索效率,进而比过去的离线探索策略更快地收敛至目标分布,在两个领域的实验中证明了其优越性。
Jun, 2023
本文提出了一种基于 Wasserstein 梯度流的分布优化技术来近似后验分布的方法,进而基于此框架发展出一种高效的基于粒子优化算法的 Thompson 抽样算法,既可应用于简单模型,也可扩展到神经网络等复杂模型,在合成数据和真实的大规模数据实验中表现出更卓越的性能。
Feb, 2019
这篇论文提出了一个算法框架,结合了不同的近似抽样方法和最近提出的 Feel-Good Thompson Sampling (FGTS) 方法,在线性 MDPs 中应用时,我们的遗憾分析得到了关于维度的最好依赖关系,超过了现有的随机算法。在一些需要进行深度探索的任务中,我们提出的将 FGTS 和近似抽样相结合的算法与其他强基准相比表现显著地更好。在 Atari 57 套件的几个具有挑战性的游戏中,我们的算法在性能上要么优于,要么与深度 RL 文献中的其他强基准相当。
Jun, 2024