带有臂组图的神经赌博机
我们提出了一种新算法 NeuralUCB 来解决随机上下文的赌博机问题,它利用了深度神经网络的表达能力并使用基于神经网络的随机特征映射来构建奖励的上界,证明了该算法能够在一些基准测试中具有实际竞争力且能够保证近乎最优的回报保证。
Nov, 2019
本文通过提出的 EE-Net 策略,使用两个神经网络(开发网络和探索网络)来解决 contextual multi-armed bandits 中的 exploitation-exploration trade-off 问题,提供了一个实例化的 regret upper bound,表现优于相关基线模型。
May, 2023
本论文研究了一种称为图赌博机的多臂赌博机扩展问题,提出了一种能够利用乐观原则平衡长期探索与开发的学习算法 G-UCB,并证明其能够达到理论最优的遗憾界,数值实验结果表明该算法优于其他基准算法。
Sep, 2022
本篇论文介绍了联邦神经 - 上置信区间算法 (FN-UCB),该算法采用两个上界置信区间 (UCB) 的加权组合,以更好地利用联合设置,并证明了 FN-UCB 的累积后悔和通信轮数上限。
May, 2022
本文研究了多方向赌博机的新问题,提出了一种使用神经网络和 UCB 算法的 MuFasa 算法,证明了其具有较优的拟下界回归分析效果,并在真实数据集上展示了它在电子商务等领域的优异性能。
Jun, 2021
在这篇论文中,我们将多智能体图赌博问题定义为由 Zhang、Johansson 和 Li [CISS 57,1-6(2023)] 引入的图赌博问题的多智能体扩展。我们提出了一种基于上限置信界(UCB)的学习算法 Multi-G-UCB,并证明其在 T 步内的期望遗憾通过 O (Nlog (T)[sqrt (KT) + DK]) 被界定,其中 D 是图 G 的直径。最后,我们通过与其他方法的比较对算法进行了数值测试。
Jan, 2024
本文提出了一种新颖的神经探索策略,在上下文赌博中提高了标准基于 UCB 和 TS 方法的表现,该策略通过使用神经网络来学习潜在奖励函数,并使用另一个神经网络来自适应地学习探索潜在收益,通过决策者来将这两个网络的结果结合起来,实现了更好的表现。
Oct, 2021
本文提出了一种新的上下文强化学习算法 NeuralBandit,它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值,并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试,包括奖励稳定和不稳定的情况,并取得了成功的效果。
Sep, 2014