集成抽样
本文提出了一种名为 Epistemic 神经网络 (ENN) 的方法,通过准确的联合预测分布来近似输出预测分布来实现 TS,实验结果表明,ENN 可以相对准确地近似 TS,并且 extit {epinet} 可以用更低的计算成本与大型集合的性能相匹配。
Feb, 2023
该论文介绍了 Thompson 采样算法在处理在线决策问题,尤其是在平衡当前性能和收集信息提高未来性能之间的探索与利用上的应用。该算法适用于各种问题并具有高效的计算能力,具体例子包括伯努利老虎机问题,最短路径问题,推荐系统,主动学习等。此外,本文还讨论了 Thompson 采样算法何时有效、何时无效以及与其他算法的关系。
Jul, 2017
文章提出了一种基于多臂赌博框架的在线顺序决策支持方法,利用 Thompson 抽样来平衡探索与利用的权衡,提出了两种算法用以解决多臂赌博问题,并在理论上给出了广义下界,通过实验证明了该方法在现实世界的数据集上表现的有效性。
Sep, 2022
本文提出了一种新的基于概率建模的 Thompson sampling 框架,使用本地潜在变量不确定性来采样均值回报,并采用变分推理来近似本地变量的后验分布,在八个上下文匹配基准数据集上进行了实验,表明由本地不确定性引导的 Thompson 采样实现了最先进的性能,同时具有较低的计算复杂度。
Oct, 2019
本文主要研究了在复杂的情况下如何在深度强化学习中使用 Thompson 抽样框架的近似贝叶斯神经网络方法,发现在时序决策问题中许多在监督学习中表现良好的方法表现不佳。
Feb, 2018
该论文讨论了 Thompson 采样如何是贝叶斯策略不确定性建模的自然后果、如何用于多个自适应智能体之间的交互研究和如何应用于推断环境中的因果关系等,在自适应顺序决策和因果推断问题中可能不仅是有用的启发式方法,而且也是一个原则性的方法。
Mar, 2013
本文介绍了一种基于深度神经网络和贝叶斯推断的新型算法 —— 神经 Thompson Sampling (Neural Thompson Sampling),并证明该算法的性能能够和同类算法相匹配,实验结果证实了该理论。
Oct, 2020
介绍了一种改进的 Thompson sampling 方法 ——bootstrap Thompson sampling,通过引入 bootstrap 分布替换后验分布,提高了其在大规模 bandit 问题中的可扩展性和面对误分布的鲁棒性。
Oct, 2014
本文提出了一种基于 Wasserstein 梯度流的分布优化技术来近似后验分布的方法,进而基于此框架发展出一种高效的基于粒子优化算法的 Thompson 抽样算法,既可应用于简单模型,也可扩展到神经网络等复杂模型,在合成数据和真实的大规模数据实验中表现出更卓越的性能。
Feb, 2019