使用潜在赌博机实现用户冷启动的高准确度和低遗憾
本文提出了一种解决 “潜在赌徒问题” 的算法,该问题是指机器学习智能体在未知离散潜在状态下知道手臂奖励分布,其主要目标是识别潜在状态。算法基于 UCBs 和 Thompson 采样,并在模型不确定性和规格不准确时具有上下文感知能力。理论分析表明,当潜在状态的数量小于行动数时,我们的算法优于传统的赌徒策略。综合实证研究表明了我们方法的优势。
Jun, 2020
介绍一种基于自适应聚类探索 - 利用 (“赌徒”) 策略的内容推荐算法,提供标准随机噪声环境下的尖锐遗憾分析,证明其伸缩性属性并在一些人工和实际数据集上证明其有效性。实验结果显示,在赌徒问题上,预测性能显著优于现有技术方法。
Jan, 2014
通过建立 de Finetti 定理和提出 SOLD 方法,该研究论文展示了潜在赌博机框架的广泛适用性,以及在线学习和离线数据集问题的解决方案,并在合成数据和电影推荐数据上进行了实验证明。
May, 2024
该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果,得到了能够满足用户喜好探索和系统数据调查的解决方案,并在 Netflix 和 MovieLens 数据集上进行了测试。
Jan, 2013
本文提出了一种在线矩阵分解推荐算法,结合了线性赌博和交替最小二乘法,通过累积遗憾和平均累积 NDCG 评估算法性能,实验结果表明该算法在三个综合数据集和三个真实数据集上优于两个最先进的在线算法。
Oct, 2018
设计了一个叫做 B-LATTICE(通过矩阵完成的被阻塞潜在臂选择的协作性乐透机制)的算法,通过满足预算限制并在用户之间进行协作,以最大化他们的累积奖励。在理论上,满足合理的潜在结构假设,对于具有 M 个用户,N 个臂,每个用户 T 轮和 C=O (1) 个潜在类别的问题,B-LATTICE 在预算约束为 B=O (logT) 的条件下,实现了每个用户的尽量减小后悔为 O (√(T (1+N/M)))。这是该问题的首个次线性后悔上界,当 B=T 时与极小后悔上界相匹配。实证上,我们证明了即使在 B=1 时,我们的算法也具有优越的性能。
Oct, 2023
在在线平台中,推荐系统是一个普遍存在的功能,越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务,将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡:等待全部奖励可用可能需要几个星期,从而影响学习的速度,而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先,我们开发了一个预测延迟奖励的模型,该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测(短期或中期结果)结合起来,得到概率信念。其次,我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题,期望在两个月内找到用户重复参与的节目。经验证明,我们的方法相比于优化短期代理或等待完全实现长期结果的方法,能够显著提高性能。
Jul, 2023