长期音频推荐的优化:强化学习视角
本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统,实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中,我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。
May, 2023
本文提出了一种名为 PrefRec 的新模型,它基于用户历史行为的喜好训练基于强化学习的推荐器,可有效地优化长期用户参与度,在大量的实验中,PrefRec 在所有任务中显着优于之前的最先进方法。
Dec, 2022
本论文介绍了一个基于强化学习的 FeedRec 框架来优化长期用户参与度,该框架包括 Hierarchical LSTM 的 Q-Network 和用于模拟环境、辅助 Q-Network 并避免策略学习收敛不稳定的 S-Network,实验结果表明 FeedRec 能够有效地优化长期用户参与度,并且优于现有的技术水平。
Feb, 2019
在在线平台中,推荐系统是一个普遍存在的功能,越来越多地被明确要求增加用户的长期满意度。本研究主要关注内容探索任务,将其形式化为一个带有延迟奖励的多臂赌博问题。我们观察到在选择学习信号时存在明显的权衡:等待全部奖励可用可能需要几个星期,从而影响学习的速度,而测量短期代理奖励只会不完美地反映实际的长期目标。我们通过两个步骤来解决这个挑战。首先,我们开发了一个预测延迟奖励的模型,该模型综合了迄今为止获得的所有信息。通过贝叶斯滤波器将完整观测和部分观测(短期或中期结果)结合起来,得到概率信念。其次,我们设计了一种利用这个新预测模型的赌博算法。该算法通过巧妙地平衡探索和开发快速学习到与长期成功一致的内容。我们将我们的方法应用于播客推荐问题,期望在两个月内找到用户重复参与的节目。经验证明,我们的方法相比于优化短期代理或等待完全实现长期结果的方法,能够显著提高性能。
Jul, 2023
本文提出了一种新的架构,将强化学习与推荐系统相结合,以实现用户 - 系统交互的累积收益最大化,避免手动调整特征和自动化状态空间表示构建过程,同时在离线实际推荐数据上进行了实验和解决方案分析。
Feb, 2017
本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统,将用户与推荐系统之间的交互建模为马尔可夫决策过程,并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数,进一步提出了一种将列表式推荐纳入推荐系统的实验方法,并在真实世界的电子商务数据集上验证了该方法的有效性。
Dec, 2017
通过重新访问基于回顾数据集的 IRS 实验,我们将 RL 模型与简单的奖励模型进行比较,发现简单贪婪的奖励模型在最大化累积奖励方面一直优于 RL 模型;而将长期奖励赋予更高权重会导致推荐性能下降;用户反馈对基准数据集仅有长期影响。因此,我们得出结论:数据集需要经过谨慎验证,并且在评估 RL-IRS 方法时应包含简单贪婪基线。
Aug, 2023
使用强化学习技术,在模拟的歌单生成环境中直接优化用户满意度指标,从而实现对大规模和动态候选歌曲集的个性化推荐。通过离线模拟和在线 A/B 测试验证,该方法相对于基线方法在用户满意度指标上表现更好,并且通过模拟器得到的性能评估与在线指标结果强相关。
Oct, 2023
本文提出了一种基于强化学习框架的工业级短视频推荐排序系统,通过协作多智能体建模和最大化用户观看时间来解决用户多方面偏好的环境下,推荐会话的马尔可夫决策过程。此外,我们的框架采用基于模型的学习方法来缓解工业推荐系统中关键但难以解决的样本选择偏差问题。大量的离线评估和实时实验验证了我们所提出方法的有效性。我们的方法已成功部署在我们的实际大规模短视频分享平台上,为数亿用户提供服务。
May, 2024