在在线平台中,推荐系统是一个普遍存在的功能,越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务,将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡:等待全部奖励可用可能需要几个星期,从而影响学习的速度,而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先,我们开发了一个预测延迟奖励的模型,该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测(短期或中期结果)结合起来,得到概率信念。其次,我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题,期望在两个月内找到用户重复参与的节目。经验证明,我们的方法相比于优化短期代理或等待完全实现长期结果的方法,能够显著提高性能。
Jul, 2023
本文针对互联网广告动态分配中的预算限制,运用多臂老虎机算法进行研究,提出具有强可证性、适应性强的 UCB1 算法改进方案。
Jun, 2013
我们研究了多臂赌博问题的战略变体,称为战略点击赌博问题。我们设计了一种激励感知的学习算法 UCB-S,该算法实现了在不确定性下激励期望的臂行为,并且能够学习未知参数以最小化遗憾度。我们的理论结果得到了通过模拟战略臂行为进行的支持,证实了我们所提出的激励设计的有效性和鲁棒性。
Nov, 2023
本文研究随机延迟赌博机问题,提出了一种基于 UCB 算法的简单但高效的算法 ——PatientBandits,通过针对延迟赋予限制的方法,得出不同类型问题的效果下限和上限。
Jun, 2020
考虑到重复使用某些选项可能是不可取的或不可行的,本文提出了一种新颖的随机多臂赌博机设置,并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法,但它设计了一种贪婪算法和一种基于 UCB 的算法,具有一定的优异性。
Jul, 2019
本文考虑了带障碍的多臂赌博机问题中,包含组合优化的情况下解决局部最优策略的方法。我们扩展了现有模型,使得多个手臂可以按照可行性约束同时进行决策。本文提出了一种自然的贪心算法,并针对其在多种情况下的表现给出了严格的理论保证。
May, 2021
该文提出了基于延迟反馈的随机线性赌博机及其算法 OTFLinUCB 和 OTFLinTS,并通过实验验证了其性能,其中 OTFLinUCB 算法的遗憾上界为 O (d√T)。
Jul, 2018
该研究探讨具有随机延迟的随机多臂赌博问题,在考虑了奖励相关延迟和奖励无关延迟两种情况下,提出了接近最优的算法,并在延迟分布的分位数上增加了附加依赖性,而不需要假设延迟分布来自任何参数化的分布族,还允许无限延迟的情况。
Jun, 2021
提出了一个非平稳随机 bandit 模型及其评估算法,对比了该算法和 UCB 方法的优越性,从而能够有效地解决音乐推荐中的问题。
Oct, 2019
介绍了一种解决在线推荐系统中面临的延迟反馈和非静态环境下,如何利用中间信号解决长期行为稳定性问题的计算机算法,并利用 UCRL 算法提出了一个能够在非静态延迟环境中学习的方法。