用于上下文强化学习问题的神经网络委员会
在线商业领域,推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架,作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略,以及开放性问题和未来前景。与现有相关教程不同,(1)我们专注于上下文强化学习的探索视角,以减轻推荐系统中的 “马太效应”,即物品的热门度导致富者更富、贫者更贫;(2)除了传统的线性上下文强化学习,我们还将专注于神经上下文强化学习,近年来成为重要的分支,从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐;(3)我们将介绍最新的话题 —— 协同神经上下文强化学习,以结合用户异质性和用户相关性,为推荐系统定制;(4)我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题,特别是对于大型神经模型。
Dec, 2023
在这篇论文中,我们介绍了一种新颖的非平稳情境强化学习算法,它结合了可扩展的基于深度神经网络的架构和一个精心设计的探索机制,在非平稳环境中优先采集具有最持久价值的信息,并通过对两个展现明显非平稳性的真实推荐数据集的实证评估,我们证明了我们的方法明显优于现有技术水平。
Oct, 2023
我们提出了一种新算法 NeuralUCB 来解决随机上下文的赌博机问题,它利用了深度神经网络的表达能力并使用基于神经网络的随机特征映射来构建奖励的上界,证明了该算法能够在一些基准测试中具有实际竞争力且能够保证近乎最优的回报保证。
Nov, 2019
本文通过提出的 EE-Net 策略,使用两个神经网络(开发网络和探索网络)来解决 contextual multi-armed bandits 中的 exploitation-exploration trade-off 问题,提供了一个实例化的 regret upper bound,表现优于相关基线模型。
May, 2023
在这篇论文中,我们考虑了度量空间中的对抗性背景下的上下文强化学习问题。虽然论文《带有强化学习反馈的最近邻》解决了该问题,但当比较器策略的决策边界附近存在许多上下文时,会出现高度的后悔。本文中,我们通过设计一种算法来解决这个问题,可以在计算后悔项时排除任何一组上下文。我们的算法基于《带有强化学习反馈的最近邻》的算法,因此具有极高的计算效率。
Dec, 2023
本文是对背景上下文算法的一个全面的研究和综述,重点关注依靠监督学习的优化原则的实用方法,并利用大量的监督学习数据集进行了实证评估。研究发现,最近使用不确定性乐观主义的方法在整体上效果最好,其次是通过上下文多样性暗示进行探索的简单贪心基线。
Feb, 2018