图神经臂带

KDDAug, 2023

Graph Neural Bandits

Yunzhe Qi, Yikun Ban, Jingrui He

TL;DR通过图神经网络，本论文提出了一种名为图神经赌博（GNB）的框架，旨在利用用户之间的协作特性来提高在线推荐系统的性能，并通过理论分析和实证研究验证了我们提出的框架的有效性。

Abstract

contextual bandits algorithms aim to choose the optimal arm with the highest reward out of a set of candidates based on the contextual information. Various bandit algorithms have been applied to real-world applications due to their ability of tackling the exploitation-exploration dilem

contextual bandits algorithms graph neural bandits collaborative effects recommendation strategy theoretical analysis

发现论文，激发创造

带有臂组图的神经赌博机

提出了一种基于装备组的图模型（Arm Group Graph，简称 AGG），并结合图神经网络（Graph Neural Network，简称 GNN）进行了动态环境下的机器学习决策算法设计，并在多个领域实现感知和动作预测。

Jun, 2022

个性化推荐的神经上下文强化学习

在线商业领域，推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架，作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略，以及开放性问题和未来前景。与现有相关教程不同，（1）我们专注于上下文强化学习的探索视角，以减轻推荐系统中的 “马太效应”，即物品的热门度导致富者更富、贫者更贫；（2）除了传统的线性上下文强化学习，我们还将专注于神经上下文强化学习，近年来成为重要的分支，从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐；（3）我们将介绍最新的话题 —— 协同神经上下文强化学习，以结合用户异质性和用户相关性，为推荐系统定制；（4）我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题，特别是对于大型神经模型。

Dec, 2023

一伙强盗

本文提出了一种新的算法方法用于解决基于社交网络结构的 Bandit 问题，该算法对每个网络节点（用户）分配了一个 Bandit 算法，并允许其与相邻节点共享信息，与传统 Contextual Bandit 方法相比，实验结果表明该算法在预测性能方面有显著提高。

Jun, 2013

用于上下文强化学习问题的神经网络委员会

本文提出了一种新的上下文强化学习算法 NeuralBandit，它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值，并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试，包括奖励稳定和不稳定的情况，并取得了成功的效果。

Sep, 2014

元学习下的神经协作过滤赌博机

通过构建神经协同过滤自适应组 Metaban 算法，本文将人工智能中的探究与利用困境（exploitation-exploration dilemma）应用于定制化推荐，并在实验中将 Metaban 与六种模型进行对比，结果表明 Metaban 显著优于其他模型的表现。

Jan, 2022

图神经网络赌博机

研究如何在具有图结构数据的情况下，使用置换不变量将图神经网络用于奖励函数的估计，并通过设计一个分阶段消去算法实现亚线性的后悔保证。

Jul, 2022

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

上下文臂状赌博机的神经利用与探索

本文通过提出的 EE-Net 策略，使用两个神经网络（开发网络和探索网络）来解决 contextual multi-armed bandits 中的 exploitation-exploration trade-off 问题，提供了一个实例化的 regret upper bound，表现优于相关基线模型。

May, 2023

上下文赌博大比拼

本文是对背景上下文算法的一个全面的研究和综述，重点关注依靠监督学习的优化原则的实用方法，并利用大量的监督学习数据集进行了实证评估。研究发现，最近使用不确定性乐观主义的方法在整体上效果最好，其次是通过上下文多样性暗示进行探索的简单贪心基线。

Feb, 2018

基于图神经赌博师的影响力最大化

利用神经 Bandit 算法解决基于未知传播网络的影响力最大化问题，在实时选择种子节点的同时，通过图卷积网络对影响者的预估奖励进行优化，从而在传播网络未知的情况下，在两个大型真实数据集上显著提高了传播效果。

Jun, 2024