具有深度表示和浅层探索的神经背景医师

Dec, 2020

具有深度表示和浅层探索的神经背景医师

Neural Contextual Bandits with Deep Representation and Shallow Exploration

Pan Xu, Zheng Wen, Handong Zhao, Quanquan Gu

TL;DR本研究提出了一种基于深度表示学习和 UCB 方法的上下文感知强化学习算法，可以通过最后一层线性层进行探索以达到最小化后悔的效果，在计算效率方面比现有神经上下文感知强化学习算法更具优势。

Abstract

We study a general class of contextual bandits, where each context-action pair is associated with a raw feature vector, but the reward generating function is unknown. We propose a novel learning algorithm that transforms the raw feature vector using the last hidden layer of a deep ReLU

contextual bandits deep representation learning upper confidence bound regret minimization computational efficiency

发现论文，激发创造

基于上置信界探索的神经上下文波段算法

我们提出了一种新算法 NeuralUCB 来解决随机上下文的赌博机问题，它利用了深度神经网络的表达能力并使用基于神经网络的随机特征映射来构建奖励的上界，证明了该算法能够在一些基准测试中具有实际竞争力且能够保证近乎最优的回报保证。

Nov, 2019

通过扰动奖励学习神经上下文强化学习

利用扰动更新神经网络，消除显式探索和计算开销，可在标准规则条件下实现 $\tilde {O}(\tilde {d}\sqrt {T})$ 的遗憾上限，是一种高效且有效的神经自适应算法。

Jan, 2022

无悔的神经上下文赌博机

提出了基于神经网络的算法 (NN-UCB) 来解决序列决策中的上下文强化学习问题，证明了该算法的后悔值可以和使用 NTK-UCB 算法等价。

Jul, 2021

上下文臂状赌博机的神经利用与探索

本文通过提出的 EE-Net 策略，使用两个神经网络（开发网络和探索网络）来解决 contextual multi-armed bandits 中的 exploitation-exploration trade-off 问题，提供了一个实例化的 regret upper bound，表现优于相关基线模型。

May, 2023

组合神经赌博机

本文提出了两个基于深度神经网络的组合赌博算法：CN-UCB 和 CN-TS，它们是首个在组合赌博问题中实现遗憾性能保证的算法。通过数值实验，证明了我们的算法有更好的性能。

May, 2023

深度上下文多臂赌博机

本文提出了一个非线性深度学习框架，用于处理上下文多臂赌博机问题，并通过 Thompson sampling 方法来解决探索与开发的取舍。我们采用贝叶斯神经网络的权重后验分布来解决 dropout 和采样之间的联系，并通过自适应学习 dropout 率从而自动调整探索水平。在两个任务上，我们的方法相较于其他方法用于减少损失，并将其应用于 HubSpot 的市场优化问题。

Jul, 2018

具有 ReLU 神经网络的随机赌博机

考虑具有 ReLU 神经网络结构的随机赌博问题，提出了一种 OFU-ReLU 算法，通过在探索阶段准确学习 ReLU 参数并将问题转化为线性赌博问题，在转换特征空间中实现平衡的探索和利用，并提供与模型参数无关的理论保证。

May, 2024

半参数情境赌博机

该论文研究了半参数上下文赌博机问题，设计了新的算法来解决非线性混淆影响下的奖励估计问题，并通过实证评估证明了该算法的有效性。

Mar, 2018

广义线性情境赌博机的可证明最优算法

本文提出了针对广义线性情境臂的上界置信度算法，实现了与众不同的性能，同时我们还分析了更简单的上界置信度算法，在特定情况下证明了该算法具有最优的后悔。

Feb, 2017

多方面的情境输送智能体：神经网络视角

本文研究了多方向赌博机的新问题，提出了一种使用神经网络和 UCB 算法的 MuFasa 算法，证明了其具有较优的拟下界回归分析效果，并在真实数据集上展示了它在电子商务等领域的优异性能。

Jun, 2021