潜在语境决策与其在新用户个性化推荐中的应用

IJCAIApr, 2016

潜在语境决策与其在新用户个性化推荐中的应用

Latent Contextual Bandits and their Application to Personalized Recommendations for New Users

Li Zhou, Emma Brunskill

TL;DR本研究提出了潜在上下文强化学习算法来解决个性化推荐中的冷启动问题，能够更快地了解新用户的兴趣并实现更好的后悔上限。

Abstract

personalized recommendations for new users, also known as the cold-start problem, can be formulated as a contextual bandit problem. Existing contextual bandit algorithms generally rely on features alone to captur

personalized recommendations cold-start problem contextual bandit problem latent contextual bandits user variability

发现论文，激发创造

使用潜在赌博机实现用户冷启动的高准确度和低遗憾

我们开发了一种新型的潜在赌徒算法，用于解决加入推荐系统的新用户冷启动问题，这种算法在准确性和遗憾率方面显著优于现有技术。

May, 2023

个性化推荐的神经上下文强化学习

在线商业领域，推荐系统对增强用户体验至关重要。本篇研究论文探讨了基于上下文的强化学习模型 —— 上下文强化学习框架，作为实现个性化推荐的强大工具。我们深入研究了该领域中的挑战、先进算法与理论、协同策略，以及开放性问题和未来前景。与现有相关教程不同，（1）我们专注于上下文强化学习的探索视角，以减轻推荐系统中的 “马太效应”，即物品的热门度导致富者更富、贫者更贫；（2）除了传统的线性上下文强化学习，我们还将专注于神经上下文强化学习，近年来成为重要的分支，从经验和理论两方面探究神经网络如何增进上下文强化学习的个性化推荐；（3）我们将介绍最新的话题 —— 协同神经上下文强化学习，以结合用户异质性和用户相关性，为推荐系统定制；（4）我们将提供和讨论神经上下文强化学习在个性化推荐中的新兴挑战和未解问题，特别是对于大型神经模型。

Dec, 2023

基于上下文的赌博机算法用于个性化新闻推荐

本文提出了一种基于上下文的赌博算法来模拟个性化推荐新闻文章，该算法在学习过程中考虑到用户和文章的背景信息，并根据用户对文章的反馈调整文章选择策略以最大化总的用户点击率。实验结果表明，相较于标准的基于上下文的赌博算法，本方法提高了 12.5% 的点击率。

Feb, 2010

基于上下文多臂赌博机的时变用户兴趣个性化推荐

研究了在高度非静态环境中的情境赌博问题，提出了一种高效的自适应学习算法，并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下，实现了遗憾的亚线性缩放。此外，将该算法扩展到混合收益的更一般情况下，并进行了实证实验，证明了该算法在两种设置下对基线算法的优势。

Feb, 2020

加速上下文强化学习的分层探索

本文提出了一种粗到细的分层方法，通过编码先验知识显著减少了探索用户反馈所需的工作量，其效果得到了广泛模拟和用户研究的证明，适用于个性化新闻推荐。

Jun, 2012

联邦多臂赌博算法的实证评估

在联邦学习中，研究通过用户与感兴趣的应用程序交互产生的隐式信号，而非要求访问难以获取的显式标签的情况下，采用联合上下文强化学习框架来开发各种中心化环境下主要上下文强化学习算法的变体，并在公开可用数据集的一系列场景中仔细评估这些算法。我们的实验显示，简单且常用的 softmax 启发式方法可以在多种设置下平衡已知的探索和开发之间的权衡。

Mar, 2023

对话式上下文强化学习算法及其应用

将上下文策略（Contextual bandit）算法推广到对话情境的策略推荐 (Conversational contextual bandit)，通过针对关键术语（key-terms）的交流反馈来加速策略学习，设计 Conversational UCB 算法来处理此类情境，理论分析 ConUCB 可以达到比传统策略策略 LinUCB 更小的遗憾上界，实验结果表明了该算法的有效性。

Jun, 2019

深度贝叶斯多臂赌博机：在线个性化推荐中的探索

本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统，其包含探索技术和上下文的特征，以解决推荐系统中的反馈循环问题和算法偏差。

Aug, 2020

使用 LLM 生成的先验知识启动 Bandits

将大型语言模型与上下文多臂赌博机框架相结合的益处展示了大量的证据。提出了一种初始化算法，通过提示语言模型生成预训练数据集，以减少上线学习的遗憾并降低培训该模型的数据收集成本。通过两组实验进行了实证验证，其中一组利用大型语言模型作为预测模拟器，另一组利用共同调查实验的数据进行真实世界实验。

Jun, 2024

非静态环境下学习上下文臂

本文介绍了一种上下文赌博算法，它基于奖励估计置信度来检测环境变化并相应地更新其臂选择策略，而严格的上限遗憾分析证明了其在非平凡环境中的学习效果。

May, 2018