Jun, 2024

图神经汤普森采样

TL;DR我们提出了一种基于图神经网络和汤普森抽样算法的在线决策问题求解方法,该方法在估计奖励函数的平均值和不确定性估计方面利用了图神经网络近似器,并证明在一定奖励函数边界的假设下,该方法在交互轮次数量和有效维度上能够达到线性次数的亚线性遗憾界,并且与图节点数量无关。实证结果验证了我们提出的方法在图行动赌博问题上具有竞争力的表现并且能够良好地扩展。