优化用户排序列表的算法将用户偏好和物品位置的变化考虑在内,通过上界调整预测的用户满意度分数,并选择最大化这些调整分数的排序操作,以在异质用户中个性化用户体验。该算法在实验中表现优于基线模型。
Jun, 2024
在在线平台中,推荐系统是一个普遍存在的功能,越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务,将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡:等待全部奖励可用可能需要几个星期,从而影响学习的速度,而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先,我们开发了一个预测延迟奖励的模型,该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测(短期或中期结果)结合起来,得到概率信念。其次,我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题,期望在两个月内找到用户重复参与的节目。经验证明,我们的方法相比于优化短期代理或等待完全实现长期结果的方法,能够显著提高性能。
Jul, 2023
本文提出一种在线学习算法 BanditQ,基于队列理论和在线学习相结合,实现公平在线预测,并在信息完整的情况下,达到目标约束,同时实现 $O (T^{3/4})$ 的损失率。
Apr, 2023
在线学习排序的领域,Bayesian ranking bandit algorithms 已被证明可以使用先前的知识来提高效能。本文提出并分析了自适应的算法,解决了现有工作需要匹配真实先验的主要局限性,并将这些结果扩展到线性和广义线性模型。此外,我们还考虑点击反馈措施,并通过合成和现实世界实验证明了我们算法的有效性。
Jan, 2023
研究了在高度非静态环境中的情境赌博问题,提出了一种高效的自适应学习算法,并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下,实现了遗憾的亚线性缩放。此外,将该算法扩展到混合收益的更一般情况下,并进行了实证实验,证明了该算法在两种设置下对基线算法的优势。
Feb, 2020
本研究提出了一种算法框架,使得在通过类似赌博机学习用户喜好进行内容个性化推荐过程中能够控制偏差和歧视,并通过实验验证了该算法的可行性和效果。
Feb, 2018
本文提出针对在线学习排名的对抗攻击研究,依托排名列表污染来攻击 OLTR 算法,实验结果验证了该攻击策略的有效性和成本效益。
May, 2023
本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统,其包含探索技术和上下文的特征,以解决推荐系统中的反馈循环问题和算法偏差。
Aug, 2020
本文介绍了一种基于多臂老虎机算法和位置点击模型的方法,用于解决线上系统中推荐排名的偏见问题,并在合成和实际数据集的离线和在线 A/B 测试中证明了该算法的有效性。
Apr, 2020
提出了一种优化算法解决自利代理人可能不真实声明其偏好的问题,并达到接近最佳后悔度的保证,尤其在信息完全与朴素赌博设置中表现出色。
May, 2024