图神经网络赌博机
在处理大型工业数据集时,考虑到 GNN 层之间的信息共享会导致大量的消息传递计算,为了解决高方差的问题,可以将 GNN 邻域抽样看作是一个多臂赌博机问题,并设计了一个新的奖励函数,可将一定程度的偏差引入样本采样中,以减少方差并避免不稳定的、可能无界的支出。
Mar, 2021
本文主要研究黑盒攻击下的图神经网络,提出一种基于赌徒技巧的在线优化攻击方法,证明其具有亚线性的复杂度和理论保障,实验结果表明该攻击方法既有效又高效。
May, 2022
我们提出了一种基于图神经网络和汤普森抽样算法的在线决策问题求解方法,该方法在估计奖励函数的平均值和不确定性估计方面利用了图神经网络近似器,并证明在一定奖励函数边界的假设下,该方法在交互轮次数量和有效维度上能够达到线性次数的亚线性遗憾界,并且与图节点数量无关。实证结果验证了我们提出的方法在图行动赌博问题上具有竞争力的表现并且能够良好地扩展。
Jun, 2024
本文介绍了在非线性结构数据中使用 NK-GPs 进行 policy learning 的方法,并比较了 GP 和 Student's t-process(TP)两种方法的表现,提出了一个用于独立测量算法学习表现和探索能力的框架,并探讨了训练频率和模型分区等实际考虑因素。
Nov, 2021
该文提出了一个理论框架来探究奖励学习和相关最优实验设计问题,利用非参数函数来模拟奖励模型和策略,借助岭回归算法开展无渐进过度风险边界分析,以此解决最优实验设计问题。文中应用这个理论框架探究高斯过程赌博优化问题,与泊松核已有研究进行了比较。
Feb, 2023
利用扰动更新神经网络,消除显式探索和计算开销,可在标准规则条件下实现 $\tilde {O}(\tilde {d}\sqrt {T})$ 的遗憾上限,是一种高效且有效的神经自适应算法。
Jan, 2022
本文提出了两种基于高斯过程的算法 - 改进的 GP-UCB(IGP-UCB)和 GP-Thomson 采样(GP-TS),并给出了相应的遗憾边界,在连续的臂集上解决了随机赌徒问题。当期望奖励函数属于复制核希尔伯特空间(RKHS)时,边界成立。在实验评估和对合成和真实世界环境中现有算法的比较中,突出了所提出策略的优势。
Apr, 2017
本文研究了一种新的纯探索选择策略,通过自适应地将每个手臂的特征表示嵌入到低维空间中并仔细处理引起的模型错误,成果展示了该方法在核空间或神经表示中实现的有效维度。实验证明了该方法的有效性。
Jun, 2021