不耐烦赌徒：无需延迟的长期优化

KDDJul, 2023

不耐烦赌徒：无需延迟的长期优化

Impatient Bandits: Optimizing for the Long-Term Without Delay

Thomas McDonald, Lucas Maystre, Mounia Lalmas, Daniel Russo, Kamil Ciosek

TL;DR在在线平台中，推荐系统是一个普遍存在的功能，越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务，将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡：等待全部奖励可用可能需要几个星期，从而影响学习的速度，而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先，我们开发了一个预测延迟奖励的模型，该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测（短期或中期结果）结合起来，得到概率信念。其次，我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题，期望在两个月内找到用户重复参与的节目。经验证明，我们的方法相比于优化短期代理或等待完全实现长期结果的方法，能够显著提高性能。

Abstract

recommender systems are a ubiquitous feature of online platforms. Increasingly, they are explicitly tasked with increasing users' long-term satisfaction. In this context, we study a content exploration task, which we formalize as a →

recommender systems long-term satisfaction multi-armed bandit problem delayed rewards predictive model

发现论文，激发创造

具有中间观测的非平稳延迟赌博机

介绍了一种解决在线推荐系统中面临的延迟反馈和非静态环境下，如何利用中间信号解决长期行为稳定性问题的计算机算法，并利用 UCRL 算法提出了一个能够在非静态延迟环境中学习的方法。

Jun, 2020

深度贝叶斯多臂赌博机：在线个性化推荐中的探索

本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统，其包含探索技术和上下文的特征，以解决推荐系统中的反馈循环问题和算法偏差。

Aug, 2020

延迟转化的随机强化学习赌博机模型

这篇文章提出并研究了一种基于 Chapelle 的框架的新的随机多臂赌博模型，其中每种操作可能会触发一个将以随机延迟发生的未来奖励，并提供了一些性能下界和基于 UCB 和 KLUCB 框架的两个简单而有效的算法。

Jun, 2017

长期音频推荐的优化：强化学习视角

本文旨在通过强化学习模型，设计一个面向长期个性化推荐的算法，并验证其在千万用户下行业内的显著性能提升。

Feb, 2023

基于延迟反馈的预算推荐

在有限的资源和延迟反馈的情况下，研究了延迟反馈对约束上下文多臂赌博问题的影响，并开发了一种决策策略（DORAL），以优化资源在具有依赖延迟反馈的上下文多臂赌博问题中的使用。

May, 2024

基于上下文多臂赌博机的时变用户兴趣个性化推荐

研究了在高度非静态环境中的情境赌博问题，提出了一种高效的自适应学习算法，并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下，实现了遗憾的亚线性缩放。此外，将该算法扩展到混合收益的更一般情况下，并进行了实证实验，证明了该算法在两种设置下对基线算法的优势。

Feb, 2020

通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值

本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统，实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中，我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。

May, 2023

广义线性赌博机中的延迟反馈：重访

本文以延迟反馈形式的一般化线性赌博机作为研究对象，通过设计乐观的算法，使得其失效惩罚与决策次数无关，从而大幅提高了现有研究中最优遗憾界的表现。

Jul, 2022

基于乐观思维探索的大规模推荐系统

通过一系列大规模的生产推荐系统实验和深入的分析，我们展示了我们的强化学习代理设计如何提高生产推荐系统的个性化，在一定程度上解决了多任务扩展性和 A/B 测试等瓶颈，并给出了一套测量用户探索效率的新指标设计。

Apr, 2023

高维线性赌博机和推荐系统

该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果，得到了能够满足用户喜好探索和系统数据调查的解决方案，并在 Netflix 和 MovieLens 数据集上进行了测试。

Jan, 2013