带有臂组图的神经赌博机

KDDJun, 2022

Neural Bandit with Arm Group Graph

Yunzhe Qi, Yikun Ban, Jingrui He

TL;DR提出了一种基于装备组的图模型（Arm Group Graph，简称 AGG），并结合图神经网络（Graph Neural Network，简称 GNN）进行了动态环境下的机器学习决策算法设计，并在多个领域实现感知和动作预测。

Abstract

contextual bandits aim to identify among a set of arms the optimal one with the highest reward based on their contextual information. Motivated by the fact that the arms usually exhibit group behaviors and the mutual impacts exist among groups, we introduce a new model, →

contextual bandits arm group graph neural networks upper confidence bound regret bound

发现论文，激发创造

图神经臂带

通过图神经网络，本论文提出了一种名为图神经赌博（GNB）的框架，旨在利用用户之间的协作特性来提高在线推荐系统的性能，并通过理论分析和实证研究验证了我们提出的框架的有效性。

Aug, 2023

基于上置信界探索的神经上下文波段算法

我们提出了一种新算法 NeuralUCB 来解决随机上下文的赌博机问题，它利用了深度神经网络的表达能力并使用基于神经网络的随机特征映射来构建奖励的上界，证明了该算法能够在一些基准测试中具有实际竞争力且能够保证近乎最优的回报保证。

Nov, 2019

上下文臂状赌博机的神经利用与探索

本文通过提出的 EE-Net 策略，使用两个神经网络（开发网络和探索网络）来解决 contextual multi-armed bandits 中的 exploitation-exploration trade-off 问题，提供了一个实例化的 regret upper bound，表现优于相关基线模型。

May, 2023

基于图的赌博机学习

本论文研究了一种称为图赌博机的多臂赌博机扩展问题，提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB，并证明其能够达到理论最优的遗憾界，数值实验结果表明该算法优于其他基准算法。

Sep, 2022

联邦神经遗传算法

本篇论文介绍了联邦神经 - 上置信区间算法 (FN-UCB)，该算法采用两个上界置信区间 (UCB) 的加权组合，以更好地利用联合设置，并证明了 FN-UCB 的累积后悔和通信轮数上限。

May, 2022

无悔的神经上下文赌博机

提出了基于神经网络的算法 (NN-UCB) 来解决序列决策中的上下文强化学习问题，证明了该算法的后悔值可以和使用 NTK-UCB 算法等价。

Jul, 2021

多方面的情境输送智能体：神经网络视角

本文研究了多方向赌博机的新问题，提出了一种使用神经网络和 UCB 算法的 MuFasa 算法，证明了其具有较优的拟下界回归分析效果，并在真实数据集上展示了它在电子商务等领域的优异性能。

Jun, 2021

合作多智体图形赌博机：UCB 算法和遗憾分析

在这篇论文中，我们将多智能体图赌博问题定义为由 Zhang、Johansson 和 Li [CISS 57，1-6（2023）] 引入的图赌博问题的多智能体扩展。我们提出了一种基于上限置信界（UCB）的学习算法 Multi-G-UCB，并证明其在 T 步内的期望遗憾通过 O (Nlog (T)[sqrt (KT) + DK]) 被界定，其中 D 是图 G 的直径。最后，我们通过与其他方法的比较对算法进行了数值测试。

Jan, 2024

EE-Net: 上下文 Bandit 中的开发 - 探索神经网络

本文提出了一种新颖的神经探索策略，在上下文赌博中提高了标准基于 UCB 和 TS 方法的表现，该策略通过使用神经网络来学习潜在奖励函数，并使用另一个神经网络来自适应地学习探索潜在收益，通过决策者来将这两个网络的结果结合起来，实现了更好的表现。

Oct, 2021

用于上下文强化学习问题的神经网络委员会

本文提出了一种新的上下文强化学习算法 NeuralBandit，它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值，并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试，包括奖励稳定和不稳定的情况，并取得了成功的效果。

Sep, 2014