基于上下文多臂赌博机的时变用户兴趣个性化推荐

AAAIFeb, 2020

基于上下文多臂赌博机的时变用户兴趣个性化推荐

Contextual-Bandit Based Personalized Recommendation with Time-Varying User Interests

Xiao Xu, Fang Dong, Yanghua Li, Shaojian He, Xin Li

TL;DR研究了在高度非静态环境中的情境赌博问题，提出了一种高效的自适应学习算法，并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下，实现了遗憾的亚线性缩放。此外，将该算法扩展到混合收益的更一般情况下，并进行了实证实验，证明了该算法在两种设置下对基线算法的优势。

Abstract

A contextual bandit problem is studied in a highly non-stationary environment, which is ubiquitous in various recommender systems due to the time-varying interests of users. Two models with disjoint and hybrid payoffs

contextual bandit non-stationary environment reward changes learning algorithm hybrid payoffs

发现论文，激发创造

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018

超级博弈机：基于超网络的流式推荐中考虑时间变化用户偏好的上下文博弈

在实时流推荐系统中，通过使用超网络的上下文马尔科夫决策算法解决了用户偏好随时间变化的问题，提出了一种基于时间特征动态调整推荐模型的超网络上下文马尔科夫决策算法 HyperBandit。

Aug, 2023

上下文阻塞赌博机

该论文研究了一种新的上下文多臂赌博问题，其中玩家在每个时间步观察独立采样的上下文，以确定每个臂的平均回报，但播放一个臂会在未来的一定时间步内阻止它。作者提出了基于 UCB 的算法来解决这个问题，同时介绍了延迟利用和机会抽样的概念。

Mar, 2020

个性化推荐的神经上下文强化学习

在线商业领域，推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架，作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略，以及开放性问题和未来前景。与现有相关教程不同，（1）我们专注于上下文强化学习的探索视角，以减轻推荐系统中的 “马太效应”，即物品的热门度导致富者更富、贫者更贫；（2）除了传统的线性上下文强化学习，我们还将专注于神经上下文强化学习，近年来成为重要的分支，从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐；（3）我们将介绍最新的话题 —— 协同神经上下文强化学习，以结合用户异质性和用户相关性，为推荐系统定制；（4）我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题，特别是对于大型神经模型。

Dec, 2023

潜在语境决策与其在新用户个性化推荐中的应用

本研究提出了潜在上下文强化学习算法来解决个性化推荐中的冷启动问题，能够更快地了解新用户的兴趣并实现更好的后悔上限。

Apr, 2016

基于上下文的赌博机算法用于个性化新闻推荐

本文提出了一种基于上下文的赌博算法来模拟个性化推荐新闻文章，该算法在学习过程中考虑到用户和文章的背景信息，并根据用户对文章的反馈调整文章选择策略以最大化总的用户点击率。实验结果表明，相较于标准的基于上下文的赌博算法，本方法提高了 12.5% 的点击率。

Feb, 2010

用于上下文强化学习问题的神经网络委员会

本文提出了一种新的上下文强化学习算法 NeuralBandit，它不需要对上下文和奖励的稳定性提出假设。该算法使用多个神经网络来建模上下文的价值，并提出了两种基于多专家方法的变体来在线选择多层感知器的参数。该算法在大型数据集上进行了测试，包括奖励稳定和不稳定的情况，并取得了成功的效果。

Sep, 2014

非平稳环境下高效应对背景干扰的 Bandit 算法

本研究开发了多种高效的上下文推断算法，为非平稳环境提供了有效的解决方案，具有动态适应分布变化的能力，同时通过对各种标准回归进行分析，证明了在时间和空间成本上都能达到最优的效果。

Aug, 2017

差分隐私上下文线性赌博机

本篇论文研究了解决上下文线性赌博机问题的隐私学习算法，其中采用联合差分隐私的定义将经典的线性 - UCB 算法转换成联合差分隐私算法，并在其中使用高斯噪声或 Wishart 噪声，使结果算法的遗憾得到了限制。此外，还给出了任何 MAB 问题私有算法必须产生的额外遗憾的第一个下限。

Sep, 2018

具有时延依赖收益的随机赌博机

提出了一个非平稳随机 bandit 模型及其评估算法，对比了该算法和 UCB 方法的优越性，从而能够有效地解决音乐推荐中的问题。

Oct, 2019