在线商业领域,推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架,作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略,以及开放性问题和未来前景。与现有相关教程不同,(1)我们专注于上下文强化学习的探索视角,以减轻推荐系统中的 “马太效应”,即物品的热门度导致富者更富、贫者更贫;(2)除了传统的线性上下文强化学习,我们还将专注于神经上下文强化学习,近年来成为重要的分支,从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐;(3)我们将介绍最新的话题 —— 协同神经上下文强化学习,以结合用户异质性和用户相关性,为推荐系统定制;(4)我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题,特别是对于大型神经模型。
Dec, 2023
本文研究了多方向赌博机的新问题,提出了一种使用神经网络和 UCB 算法的 MuFasa 算法,证明了其具有较优的拟下界回归分析效果,并在真实数据集上展示了它在电子商务等领域的优异性能。
Jun, 2021
本文提出了一种新的上下文强化学习算法 NeuralBandit,它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值,并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试,包括奖励稳定和不稳定的情况,并取得了成功的效果。
Sep, 2014
该论文提出了一种新型的循环探索网络,用于在潜在空间中进行表示学习和有效的探索,以平衡相关性和多样性,同时考虑表示中的不确定性,理论分析表明,该网络即使存在学习表示中的不确定性,也能保持速率最优的次线性遗憾,实证研究证明了该网络在综合和真实推荐数据集上能够实现令人满意的长期奖励,优于现有最先进的模型。
Feb, 2022
提出一种面向推荐系统的可扩展的高效样本神经上下文强化学习算法,Epistemic Neural Recommendation (ENR), 具有比基线算法更高的点击率和用户评分,并且具有比最佳基线算法少 29% 的用户交互,同时计算资源需求明显较低。
Jun, 2023
我们提出了一种新算法 NeuralUCB 来解决随机上下文的赌博机问题,它利用了深度神经网络的表达能力并使用基于神经网络的随机特征映射来构建奖励的上界,证明了该算法能够在一些基准测试中具有实际竞争力且能够保证近乎最优的回报保证。
Nov, 2019
利用扰动更新神经网络,消除显式探索和计算开销,可在标准规则条件下实现 $\tilde {O}(\tilde {d}\sqrt {T})$ 的遗憾上限,是一种高效且有效的神经自适应算法。
Jan, 2022
通过构建神经协同过滤自适应组 Metaban 算法,本文将人工智能中的探究与利用困境(exploitation-exploration dilemma)应用于定制化推荐,并在实验中将 Metaban 与六种模型进行对比,结果表明 Metaban 显著优于其他模型的表现。
我们提出了一个风险感知的决策框架,用于处理上下文褒贬问题,并满足实际环境中的约束条件,通过采用一个多批评者的角色体系来平衡约束满足度和性能。
本文通过提出的 EE-Net 策略,使用两个神经网络(开发网络和探索网络)来解决 contextual multi-armed bandits 中的 exploitation-exploration trade-off 问题,提供了一个实例化的 regret upper bound,表现优于相关基线模型。
May, 2023