图神经汤普森采样

Jun, 2024

Graph Neural Thompson Sampling

Shuang Wu, Arash A. Amini

TL;DR我们提出了一种基于图神经网络和汤普森抽样算法的在线决策问题求解方法，该方法在估计奖励函数的平均值和不确定性估计方面利用了图神经网络近似器，并证明在一定奖励函数边界的假设下，该方法在交互轮次数量和有效维度上能够达到线性次数的亚线性遗憾界，并且与图节点数量无关。实证结果验证了我们提出的方法在图行动赌博问题上具有竞争力的表现并且能够良好地扩展。

Abstract

We consider an online decision-making problem with a reward function defined over graph-structured data. We formally formulate the problem as an instance of graph action bandit. We then propose \texttt{GNN-TS}, a

online decision-making graph-structured data graph neural network thompson sampling regret bound

发现论文，激发创造

神经汤普森抽样

本文介绍了一种基于深度神经网络和贝叶斯推断的新型算法 —— 神经 Thompson Sampling (Neural Thompson Sampling)，并证明该算法的性能能够和同类算法相匹配，实验结果证实了该理论。

Oct, 2020

Thompson 采样在 GFlowNets 中的应用提高探索性能

本文提出了一种基于多臂赌博机思想的贝叶斯技术算法（TS-GFN），将训练过程中的轨迹选择视为主动学习问题，从学习策略的近似后验分布中采样轨迹来提高探索效率，进而比过去的离线探索策略更快地收敛至目标分布，在两个领域的实验中证明了其优越性。

Jun, 2023

带图反馈的随机赌博机的汤普森抽样

本研究介绍了一种新的 Thimpson Sampling 算法扩展，应用于带图反馈的随机顺序决策问题，甚至在图结构本身未知或者不断变化的情况下。通过对真实和模拟的具有图反馈的网络进行广泛的实验结果，可以说明该算法的性能优于使用上界置信度的相关方法，即使后者使用的图信息更多。

Jan, 2017

基于认知神经网络的近似汤普森抽样

本文提出了一种名为 Epistemic 神经网络 (ENN) 的方法，通过准确的联合预测分布来近似输出预测分布来实现 TS，实验结果表明，ENN 可以相对准确地近似 TS，并且 extit {epinet} 可以用更低的计算成本与大型集合的性能相匹配。

Feb, 2023

图神经网络赌博机

研究如何在具有图结构数据的情况下，使用置换不变量将图神经网络用于奖励函数的估计，并通过设计一个分阶段消去算法实现亚线性的后悔保证。

Jul, 2022

基于近似采样的强化学习更高效的随机探索

这篇论文提出了一个算法框架，结合了不同的近似抽样方法和最近提出的 Feel-Good Thompson Sampling (FGTS) 方法，在线性 MDPs 中应用时，我们的遗憾分析得到了关于维度的最好依赖关系，超过了现有的随机算法。在一些需要进行深度探索的任务中，我们提出的将 FGTS 和近似抽样相结合的算法与其他强基准相比表现显著地更好。在 Atari 57 套件的几个具有挑战性的游戏中，我们的算法在性能上要么优于，要么与深度 RL 文献中的其他强基准相当。

Jun, 2024

一个带有近乎最优遗憾的有偏图神经网络采样器

在处理大型工业数据集时，考虑到 GNN 层之间的信息共享会导致大量的消息传递计算，为了解决高方差的问题，可以将 GNN 邻域抽样看作是一个多臂赌博机问题，并设计了一个新的奖励函数，可将一定程度的偏差引入样本采样中，以减少方差并避免不稳定的、可能无界的支出。

Mar, 2021

无图形图形赌博机 Thompson 抽样的分析

本篇论文研究了带有图反馈的多臂赌博问题，其中可以观察所选行动的相邻行动，在图可能随时间变化且不向决策者完全显露的情况下。该文提出了一种算法，并证明了在无向图情况下它达到了最优（在对数因子内）失误收敛速率。同时，论文还提出了在有向图情况下该算法略微较弱的失误收敛速率，并提出了一种改进算法，在有向情况下，达到了最优失误收敛速率（对数因子内）。这两种算法都能有效实现，且不需要在任何时候了解反馈图。

May, 2018

组合神经赌博机

本文提出了两个基于深度神经网络的组合赌博算法：CN-UCB 和 CN-TS，它们是首个在组合赌博问题中实现遗憾性能保证的算法。通过数值实验，证明了我们的算法有更好的性能。

May, 2023

智能和适应后验采样算法用于二元选择

我们研究了基于 Thompson Sampling 的有界奖励随机赌博算法。为了解决现有的与高斯先验的 Thompson Sampling 相关的问题相关后悔界限在 T≤288e^64 时是虚无的问题，我们导出了一个更实用的界限，将主要项的系数从 288e^64 缩小到 1270。此外，我们提出了两种参数化的 Thompson Sampling 算法：带有模型聚合的 TS-MA-α 和带有时间战斗的 TS-TD-α，其中 α∈[0,1] 控制效用与计算之间的权衡。这两种算法都可以实现 O (Kln^(α+1)(T)/Δ) 的后悔界限，其中 K 是臂数量，T 是有限学习时段，Δ 表示拉动次优臂时的单轮性能损失。

May, 2024