上下文臂状赌博机的神经利用与探索

May, 2023

上下文臂状赌博机的神经利用与探索

Neural Exploitation and Exploration of Contextual Bandits

Yikun Ban, Yuchen Yan, Arindam Banerjee, Jingrui He

TL;DR本文通过提出的 EE-Net 策略，使用两个神经网络（开发网络和探索网络）来解决 contextual multi-armed bandits 中的 exploitation-exploration trade-off 问题，提供了一个实例化的 regret upper bound，表现优于相关基线模型。

Abstract

In this paper, we study utilizing neural networks for the exploitation and exploration of contextual multi-armed bandits. contextual multi-armed

neural networks contextual multi-armed bandits exploitation-exploration trade-off ee-net regret upper bound

发现论文，激发创造

EE-Net: 上下文 Bandit 中的开发 - 探索神经网络

本文提出了一种新颖的神经探索策略，在上下文赌博中提高了标准基于 UCB 和 TS 方法的表现，该策略通过使用神经网络来学习潜在奖励函数，并使用另一个神经网络来自适应地学习探索潜在收益，通过决策者来将这两个网络的结果结合起来，实现了更好的表现。

Oct, 2021

基于上置信界探索的神经上下文波段算法

我们提出了一种新算法 NeuralUCB 来解决随机上下文的赌博机问题，它利用了深度神经网络的表达能力并使用基于神经网络的随机特征映射来构建奖励的上界，证明了该算法能够在一些基准测试中具有实际竞争力且能够保证近乎最优的回报保证。

Nov, 2019

深度上下文多臂赌博机

本文提出了一个非线性深度学习框架，用于处理上下文多臂赌博机问题，并通过 Thompson sampling 方法来解决探索与开发的取舍。我们采用贝叶斯神经网络的权重后验分布来解决 dropout 和采样之间的联系，并通过自适应学习 dropout 率从而自动调整探索水平。在两个任务上，我们的方法相较于其他方法用于减少损失，并将其应用于 HubSpot 的市场优化问题。

Jul, 2018

神经汤普森抽样

本文介绍了一种基于深度神经网络和贝叶斯推断的新型算法 —— 神经 Thompson Sampling (Neural Thompson Sampling)，并证明该算法的性能能够和同类算法相匹配，实验结果证实了该理论。

Oct, 2020

用于上下文强化学习问题的神经网络委员会

本文提出了一种新的上下文强化学习算法 NeuralBandit，它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值，并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试，包括奖励稳定和不稳定的情况，并取得了成功的效果。

Sep, 2014

图神经臂带

通过图神经网络，本论文提出了一种名为图神经赌博（GNB）的框架，旨在利用用户之间的协作特性来提高在线推荐系统的性能，并通过理论分析和实证研究验证了我们提出的框架的有效性。

Aug, 2023

带有臂组图的神经赌博机

提出了一种基于装备组的图模型（Arm Group Graph，简称 AGG），并结合图神经网络（Graph Neural Network，简称 GNN）进行了动态环境下的机器学习决策算法设计，并在多个领域实现感知和动作预测。

Jun, 2022

具有深度表示和浅层探索的神经背景医师

本研究提出了一种基于深度表示学习和 UCB 方法的上下文感知强化学习算法，可以通过最后一层线性层进行探索以达到最小化后悔的效果，在计算效率方面比现有神经上下文感知强化学习算法更具优势。

Dec, 2020

元学习下的神经协作过滤赌博机

通过构建神经协同过滤自适应组 Metaban 算法，本文将人工智能中的探究与利用困境（exploitation-exploration dilemma）应用于定制化推荐，并在实验中将 Metaban 与六种模型进行对比，结果表明 Metaban 显著优于其他模型的表现。

Jan, 2022

无悔的神经上下文赌博机

提出了基于神经网络的算法 (NN-UCB) 来解决序列决策中的上下文强化学习问题，证明了该算法的后悔值可以和使用 NTK-UCB 算法等价。

Jul, 2021