无悔的神经上下文赌博机
探讨K-armed bandit问题下的noisy reward,提出了一种简单实用的算法(kNN-UCB),并得到了紧密的top-arm identification和sublinear regret边界,并讨论了该算法的全局intrisinic dimension和ambient dimension的regret边界,同时介绍了对于无限武装情境下bandit算法的扩展和实验证明了算法在多种任务上的优越性。
Jan, 2018
本文使用代理损失函数导出了新的后悔界限和新的算法,其中借助于坡道损失函数,我们导出了新的边界界限。同时也根据标准顺序复杂度度量了回归函数的基准类,使用铰链损失函数,导出了一种有效的算法,并且其中包含了一个以$d$维度回归器引出的基准方针。在实现假设下,本研究的结果也可以得出经典的后悔边界。
Jun, 2018
我们提出了一种新算法NeuralUCB来解决随机上下文的赌博机问题,它利用了深度神经网络的表达能力并使用基于神经网络的随机特征映射来构建奖励的上界,证明了该算法能够在一些基准测试中具有实际竞争力且能够保证近乎最优的回报保证。
Nov, 2019
利用扰动更新神经网络,消除显式探索和计算开销,可在标准规则条件下实现$\tilde{O}(\tilde{d}\sqrt{T})$的遗憾上限,是一种高效且有效的神经自适应算法。
Jan, 2022
提出了一种平滑遗憾函数的背景自适应算法,可用于大量或连续动作空间下的通用背景自适应问题,并能适应各种光滑度级别的问题,取得了先前优化遗憾函数的最优性保证。
Jul, 2022
通过引入神经网络增强情境强化学习,本文提出了一种适用于大规模推荐系统的联合神经情境强化学习解决方案,该方案将所有推荐物品集成到一个单一模型中,并通过理论分析和实验结果揭示了超参数调整过程中的不确定性,为离线训练和在线部署提供了帮助。
Jun, 2024
我们研究了上下文连续性强化学习问题,证明了任何达到次线性静态遗憾的算法都可以扩展到达到次线性动态遗憾,我们提出了一种算法,通过自协调屏障和内点法实现了次线性动态遗憾,并且得出两个关键事实:首先,对于上下文不连续的函数,没有算法可以达到次线性动态遗憾;其次,对于强凸和光滑函数,我们提出的算法达到了最小极大动态遗憾速率的最优值,仅相差对数因子。
Jun, 2024
本文解决了无界上下文的非参数上下文赌博机问题,填补了现有研究在这一领域的空白。提出了两种结合UCB探索的最近邻方法,其中第二种方法通过自适应选择邻居数量,达到了大部分情况下的最优后悔界限,为无界上下文的在线决策提供了有效的解决方案。
Aug, 2024