基于上置信界探索的神经上下文波段算法
本研究提出了一种基于深度表示学习和 UCB 方法的上下文感知强化学习算法,可以通过最后一层线性层进行探索以达到最小化后悔的效果,在计算效率方面比现有神经上下文感知强化学习算法更具优势。
Dec, 2020
本文通过提出的 EE-Net 策略,使用两个神经网络(开发网络和探索网络)来解决 contextual multi-armed bandits 中的 exploitation-exploration trade-off 问题,提供了一个实例化的 regret upper bound,表现优于相关基线模型。
May, 2023
本文提出了两个基于深度神经网络的组合赌博算法:CN-UCB 和 CN-TS,它们是首个在组合赌博问题中实现遗憾性能保证的算法。通过数值实验,证明了我们的算法有更好的性能。
May, 2023
本文研究了一类常见的序贯决策问题 —— 批处理问题,提出了一种结合神经网络和乐观性的算法 BatchNeuralUCB,用于解决探索利用平衡及限制批数量的问题,并在理论上证明了其有效性,在合成和真实数据集上进行了验证。
Feb, 2021
利用扰动更新神经网络,消除显式探索和计算开销,可在标准规则条件下实现 $\tilde {O}(\tilde {d}\sqrt {T})$ 的遗憾上限,是一种高效且有效的神经自适应算法。
Jan, 2022
本篇论文介绍了联邦神经 - 上置信区间算法 (FN-UCB),该算法采用两个上界置信区间 (UCB) 的加权组合,以更好地利用联合设置,并证明了 FN-UCB 的累积后悔和通信轮数上限。
May, 2022
本文提出了一种新的上下文强化学习算法 NeuralBandit,它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值,并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试,包括奖励稳定和不稳定的情况,并取得了成功的效果。
Sep, 2014
本文提出了一种新颖的神经探索策略,在上下文赌博中提高了标准基于 UCB 和 TS 方法的表现,该策略通过使用神经网络来学习潜在奖励函数,并使用另一个神经网络来自适应地学习探索潜在收益,通过决策者来将这两个网络的结果结合起来,实现了更好的表现。
Oct, 2021
探讨 K-armed bandit 问题下的 noisy reward,提出了一种简单实用的算法(kNN-UCB),并得到了紧密的 top-arm identification 和 sublinear regret 边界,并讨论了该算法的全局 intrisinic dimension 和 ambient dimension 的 regret 边界,同时介绍了对于无限武装情境下 bandit 算法的扩展和实验证明了算法在多种任务上的优越性。
Jan, 2018