无悔的神经上下文赌博机
我们提出了一种新算法 NeuralUCB 来解决随机上下文的赌博机问题,它利用了深度神经网络的表达能力并使用基于神经网络的随机特征映射来构建奖励的上界,证明了该算法能够在一些基准测试中具有实际竞争力且能够保证近乎最优的回报保证。
Nov, 2019
利用扰动更新神经网络,消除显式探索和计算开销,可在标准规则条件下实现 $\tilde {O}(\tilde {d}\sqrt {T})$ 的遗憾上限,是一种高效且有效的神经自适应算法。
Jan, 2022
本文提出了两个基于深度神经网络的组合赌博算法:CN-UCB 和 CN-TS,它们是首个在组合赌博问题中实现遗憾性能保证的算法。通过数值实验,证明了我们的算法有更好的性能。
May, 2023
探讨 K-armed bandit 问题下的 noisy reward,提出了一种简单实用的算法(kNN-UCB),并得到了紧密的 top-arm identification 和 sublinear regret 边界,并讨论了该算法的全局 intrisinic dimension 和 ambient dimension 的 regret 边界,同时介绍了对于无限武装情境下 bandit 算法的扩展和实验证明了算法在多种任务上的优越性。
Jan, 2018
本研究提出了一种基于深度表示学习和 UCB 方法的上下文感知强化学习算法,可以通过最后一层线性层进行探索以达到最小化后悔的效果,在计算效率方面比现有神经上下文感知强化学习算法更具优势。
Dec, 2020
提出了一种基于 oracle 的算法来应对敌对情境下的赌博问题,该算法在访问离线优化 Oracle 并且享有 $O ((KT)^{\frac {2}{3}}(\log N)^{\frac {1}{3}})$ 的遗憾度的情况下是计算有效的,其中 K 是操作的数量,T 是迭代次数,N 是基线策略的数量。
Jun, 2016
本文研究了一类常见的序贯决策问题 —— 批处理问题,提出了一种结合神经网络和乐观性的算法 BatchNeuralUCB,用于解决探索利用平衡及限制批数量的问题,并在理论上证明了其有效性,在合成和真实数据集上进行了验证。
Feb, 2021