推荐系统中的曝光限制学习
本文提出了一种自适应聚类技术,以探索 - 利用策略为基础,用于内容推荐系统中高动态性的推荐领域,该算法利用数据中的喜好模式,具有与协同过滤方法类似的优点,对中等规模的真实世界数据集进行了实证分析,表现出可扩展性和预测性能提高。
Feb, 2015
本文提出了一种使用深度贝叶斯 Bandits 算法的广告推荐系统,其包含探索技术和上下文的特征,以解决推荐系统中的反馈循环问题和算法偏差。
Aug, 2020
为了解决个性化推荐中传统策略可能导致的不公平现象,提出了一种新的基于功绩公平的策略,并给出了两种算法,分别适用于多臂老虎机和线性老虎机,证明了算法的功绩公平和奖励公平具有亚线性,同时提供了实证分析,证明了该算法能够有效地公平分配推荐曝光。
Mar, 2021
本论文提出了一种基于极小值 - 最大值经验风险的新型推荐算法,该算法使用属于敌对领域的候选模型对反驳所述推荐模型中的潜在暴露机制的对手进行了建模,并使用模拟研究验证了此方法在推荐设置的不同方面的优越性。
Nov, 2020
该研究考虑利用 Bayesian Exploration 方法设计推荐系统,通过信息不对等来鼓励用户进行探索,此外还将用户分为不同类型,以实现最佳的个性化推荐。
Feb, 2019
本文介绍了一种新的推荐系统模型,其面临探索 - 开发折衷,并可以被建模为多臂老虎机设置,由于用户具有自利性质,因此不能被强制性遵循推荐,作者提出了一种算法以探索为基础,同时考虑到代理人的利益,是一个渐进最优、刺激兼容、先验个体理性的推荐算法。
May, 2019
在在线平台中,推荐系统是一个普遍存在的功能,越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务,将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡:等待全部奖励可用可能需要几个星期,从而影响学习的速度,而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先,我们开发了一个预测延迟奖励的模型,该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测(短期或中期结果)结合起来,得到概率信念。其次,我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题,期望在两个月内找到用户重复参与的节目。经验证明,我们的方法相比于优化短期代理或等待完全实现长期结果的方法,能够显著提高性能。
Jul, 2023
研究了在高度非静态环境中的情境赌博问题,提出了一种高效的自适应学习算法,并提供了理论上的遗憾分析来证明在时间长度 $T$ 的情况下,实现了遗憾的亚线性缩放。此外,将该算法扩展到混合收益的更一般情况下,并进行了实证实验,证明了该算法在两种设置下对基线算法的优势。
Feb, 2020