使用潜在赌博机实现用户冷启动的高准确度和低遗憾

May, 2023

使用潜在赌博机实现用户冷启动的高准确度和低遗憾

High Accuracy and Low Regret for User-Cold-Start Using Latent Bandits

David Young, Douglas Leith

TL;DR我们开发了一种新型的潜在赌徒算法，用于解决加入推荐系统的新用户冷启动问题，这种算法在准确性和遗憾率方面显著优于现有技术。

Abstract

We develop a novel latent-bandit algorithm for tackling the cold-start problem for new users joining a recommender system. This new algorithm significantly outperforms the state of the art, simultaneously achievi

latent-bandit algorithm cold-start problem recommender system accuracy regret

发现论文，激发创造

潜在语境决策与其在新用户个性化推荐中的应用

本研究提出了潜在上下文强化学习算法来解决个性化推荐中的冷启动问题，能够更快地了解新用户的兴趣并实现更好的后悔上限。

Apr, 2016

潜在赌徒问题的再探讨

本文提出了一种解决 “潜在赌徒问题” 的算法，该问题是指机器学习智能体在未知离散潜在状态下知道手臂奖励分布，其主要目标是识别潜在状态。算法基于 UCBs 和 Thompson 采样，并在模型不确定性和规格不准确时具有上下文感知能力。理论分析表明，当潜在状态的数量小于行动数时，我们的算法优于传统的赌徒策略。综合实证研究表明了我们方法的优势。

Jun, 2020

在线集群化的赌博机

介绍一种基于自适应聚类探索 - 利用 (“赌徒”) 策略的内容推荐算法，提供标准随机噪声环境下的尖锐遗憾分析，证明其伸缩性属性并在一些人工和实际数据集上证明其有效性。实验结果显示，在赌徒问题上，预测性能显著优于现有技术方法。

Jan, 2014

在线匹配：一种用于大规模推荐的实时试错系统

通过在线学习的方法，本研究提出了一种用于大规模推荐系统的可扩展闭环赌博系统，以提高新内容发现和物品探索的能力。

Jul, 2023

线性潜在匪徒中利用离线数据

通过建立 de Finetti 定理和提出 SOLD 方法，该研究论文展示了潜在赌博机框架的广泛适用性，以及在线学习和离线数据集问题的解决方案，并在合成数据和电影推荐数据上进行了实验证明。

May, 2024

基于级联赌博机的大规模推荐问题

本研究提出了两种基于线性推广的算法来解决级联赌博问题，主要应用在推荐系统中。通过对算法的评估，发现本文算法表现较为良好，且优于所有基准算法。

Mar, 2016

高维线性赌博机和推荐系统

该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果，得到了能够满足用户喜好探索和系统数据调查的解决方案，并在 Netflix 和 MovieLens 数据集上进行了测试。

Jan, 2013

在线矩阵分解推荐的交替线性赌博机算法

本文提出了一种在线矩阵分解推荐算法，结合了线性赌博和交替最小二乘法，通过累积遗憾和平均累积 NDCG 评估算法性能，实验结果表明该算法在三个综合数据集和三个真实数据集上优于两个最先进的在线算法。

Oct, 2018

基于每个项目预算约束的在线协同过滤：阻塞协同强盗

设计了一个叫做 B-LATTICE（通过矩阵完成的被阻塞潜在臂选择的协作性乐透机制）的算法，通过满足预算限制并在用户之间进行协作，以最大化他们的累积奖励。在理论上，满足合理的潜在结构假设，对于具有 M 个用户，N 个臂，每个用户 T 轮和 C=O (1) 个潜在类别的问题，B-LATTICE 在预算约束为 B=O (logT) 的条件下，实现了每个用户的尽量减小后悔为 O (√(T (1+N/M)))。这是该问题的首个次线性后悔上界，当 B=T 时与极小后悔上界相匹配。实证上，我们证明了即使在 B=1 时，我们的算法也具有优越的性能。

Oct, 2023

不耐烦赌徒：无需延迟的长期优化

在在线平台中，推荐系统是一个普遍存在的功能，越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务，将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡：等待全部奖励可用可能需要几个星期，从而影响学习的速度，而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先，我们开发了一个预测延迟奖励的模型，该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测（短期或中期结果）结合起来，得到概率信念。其次，我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题，期望在两个月内找到用户重复参与的节目。经验证明，我们的方法相比于优化短期代理或等待完全实现长期结果的方法，能够显著提高性能。

Jul, 2023