组合神经赌博机

ICMLMay, 2023

Combinatorial Neural Bandits

Taehyun Hwang, Kyuwook Chai, Min-hwan Oh

TL;DR本文提出了两个基于深度神经网络的组合赌博算法：CN-UCB 和 CN-TS，它们是首个在组合赌博问题中实现遗憾性能保证的算法。通过数值实验，证明了我们的算法有更好的性能。

Abstract

We consider a contextual combinatorial bandit problem where in each round a learning agent selects a subset of arms and receives feedback on the selected arms according to their scores. The score of an arm is an unknown function of the arm's feature. Approximating this unknown score fu

combinatorial bandit problem deep neural networks combinatorial neural ucb combinatorial neural thompson sampling regret performance guarantees

发现论文，激发创造

基于上置信界探索的神经上下文波段算法

我们提出了一种新算法 NeuralUCB 来解决随机上下文的赌博机问题，它利用了深度神经网络的表达能力并使用基于神经网络的随机特征映射来构建奖励的上界，证明了该算法能够在一些基准测试中具有实际竞争力且能够保证近乎最优的回报保证。

Nov, 2019

神经汤普森抽样

本文介绍了一种基于深度神经网络和贝叶斯推断的新型算法 —— 神经 Thompson Sampling (Neural Thompson Sampling)，并证明该算法的性能能够和同类算法相匹配，实验结果证实了该理论。

Oct, 2020

无悔的神经上下文赌博机

提出了基于神经网络的算法 (NN-UCB) 来解决序列决策中的上下文强化学习问题，证明了该算法的后悔值可以和使用 NTK-UCB 算法等价。

Jul, 2021

组合半臂老虎机的汤普森抽样

本文研究了 Thompson 采样方法在随机组合多臂赌博机框架中的应用，分析了多种算法的累积遗憾，并给出了上限界以及其他算法之间的比较结果。

Mar, 2018

具上下文的组合赌博机、概率挑战的手臂

本文针对情境组合赌博问题，提出了一种具有触发概率和方差自适应的算法，并给出了相应的遗憾界。在合成和真实世界数据集上的实验结果表明算法的优越性。

Mar, 2023

大规模组合半臂老虎机的高效学习

本文提出了两种学习算法：Combinatorial Linear Thompson Sampling (CombLinTS) 和 Combinatorial Linear UCB (CombLinUCB) 来解决大规模组合半强盗问题，并证明它们是计算和统计上高效的。

Jun, 2014

组合多臂赌博机中 Thompson Sampling 的分析与概率触发武器

研究了在半盲反馈条件下，组合多臂赌博问题中，具有概率触发武器的组合汤普森抽样的遗憾，并在基准武器预期的连续 Lipschitz 情况下得出了 CTS 的遗憾界。

Sep, 2018

基于贝叶斯设置的组合高斯过程赌臂问题：理论与能效导航应用

研究探究了具有时间变化的臂可用性的组合高斯过程半 - 算法问题，提出了三种基于高斯过程的算法 (即 GP-UCB、Bayes-GP-UCB 和 GP-TS) 的贝叶斯遗憾界，对综合合成和实际路网进行了实验研究，并发现上下文高斯过程模型在先验信息的信息度量上的遗憾值较低。

Dec, 2023

上下文臂状赌博机的神经利用与探索

本文通过提出的 EE-Net 策略，使用两个神经网络（开发网络和探索网络）来解决 contextual multi-armed bandits 中的 exploitation-exploration trade-off 问题，提供了一个实例化的 regret upper bound，表现优于相关基线模型。

May, 2023

具有深度表示和浅层探索的神经背景医师

本研究提出了一种基于深度表示学习和 UCB 方法的上下文感知强化学习算法，可以通过最后一层线性层进行探索以达到最小化后悔的效果，在计算效率方面比现有神经上下文感知强化学习算法更具优势。

Dec, 2020