图神经网络赌博机

Jul, 2022

Graph Neural Network Bandits

Parnian Kassraie, Andreas Krause, Ilija Bogunovic

TL;DR研究如何在具有图结构数据的情况下，使用置换不变量将图神经网络用于奖励函数的估计，并通过设计一个分阶段消去算法实现亚线性的后悔保证。

Abstract

We consider the bandit optimization problem with the reward function defined over graph-structured data. This problem has important applications in molecule design and drug discovery, where the reward is naturall

bandit optimization graph-structured data permutation-invariance graph neural networks regret bound

发现论文，激发创造

图神经臂带

通过图神经网络，本论文提出了一种名为图神经赌博（GNB）的框架，旨在利用用户之间的协作特性来提高在线推荐系统的性能，并通过理论分析和实证研究验证了我们提出的框架的有效性。

Aug, 2023

一个带有近乎最优遗憾的有偏图神经网络采样器

在处理大型工业数据集时，考虑到 GNN 层之间的信息共享会导致大量的消息传递计算，为了解决高方差的问题，可以将 GNN 邻域抽样看作是一个多臂赌博机问题，并设计了一个新的奖励函数，可将一定程度的偏差引入样本采样中，以减少方差并避免不稳定的、可能无界的支出。

Mar, 2021

利用赌博机构造基于结构扰动的黑盒攻击对带有理论保证的图神经网络

本文主要研究黑盒攻击下的图神经网络，提出一种基于赌徒技巧的在线优化攻击方法，证明其具有亚线性的复杂度和理论保障，实验结果表明该攻击方法既有效又高效。

May, 2022

图神经汤普森采样

我们提出了一种基于图神经网络和汤普森抽样算法的在线决策问题求解方法，该方法在估计奖励函数的平均值和不确定性估计方面利用了图神经网络近似器，并证明在一定奖励函数边界的假设下，该方法在交互轮次数量和有效维度上能够达到线性次数的亚线性遗憾界，并且与图节点数量无关。实证结果验证了我们提出的方法在图行动赌博问题上具有竞争力的表现并且能够良好地扩展。

Jun, 2024

神经内核赌博机中表示学习与探索的实证分析

本文介绍了在非线性结构数据中使用 NK-GPs 进行 policy learning 的方法，并比较了 GP 和 Student's t-process（TP）两种方法的表现，提出了一个用于独立测量算法学习表现和探索能力的框架，并探讨了训练频率和模型分区等实际考虑因素。

Nov, 2021

奖励学习作为双非参数赌博机：最佳设计和标度律

该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题，利用非参数函数来模拟奖励模型和策略，借助岭回归算法开展无渐进过度风险边界分析，以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题，与泊松核已有研究进行了比较。

Feb, 2023

通过扰动奖励学习神经上下文强化学习

利用扰动更新神经网络，消除显式探索和计算开销，可在标准规则条件下实现 $\tilde {O}(\tilde {d}\sqrt {T})$ 的遗憾上限，是一种高效且有效的神经自适应算法。

Jan, 2022

图神经切向核：将图神经网络与图核融合

本文介绍了一种新的图卷积核 (GNTKs) 可以更好地表达图的信息，并且在图分类数据集上表现出强大的性能。

May, 2019

核化多臂赌博机

本文提出了两种基于高斯过程的算法 - 改进的 GP-UCB（IGP-UCB）和 GP-Thomson 采样（GP-TS），并给出了相应的遗憾边界，在连续的臂集上解决了随机赌徒问题。当期望奖励函数属于复制核希尔伯特空间（RKHS）时，边界成立。在实验评估和对合成和真实世界环境中现有算法的比较中，突出了所提出策略的优势。

Apr, 2017

核和神经赌博中的纯探索

本文研究了一种新的纯探索选择策略，通过自适应地将每个手臂的特征表示嵌入到低维空间中并仔细处理引起的模型错误，成果展示了该方法在核空间或神经表示中实现的有效维度。实验证明了该方法的有效性。

Jun, 2021