利用强化学习实现多任务融合，提升推荐系统的用户长期满意度

KDDAug, 2022

利用强化学习实现多任务融合，提升推荐系统的用户长期满意度

Multi-Task Fusion via Reinforcement Learning for Long-Term User Satisfaction in Recommender Systems

Qihua Zhang, Junning Liu, Yuzhuo Dai, Yiyan Qi, Yifan Yuan...

TL;DR该研究结合用户粘性和主动性两个方面，提出了一种基于批量强化学习的多任务融合框架（BatchRL-MTF），以长期用户满意度为最终目标，部署于大规模工业短视频平台。

Abstract

recommender system (RS) is an important online application that affects billions of users every day. The mainstream RS ranking framework is composed of two parts: a multi-task learning model (MTL) that predicts v

recommender system multi-task learning multi-task fusion markov decision process batch reinforcement learning

发现论文，激发创造

大规模推荐系统中多任务融合的离策略增强学习算法定制化

为了解决多任务融合中的严重问题，提出一种定制的离策略强化学习算法，该算法整合了离策略强化学习模型和在线探索策略，大幅度提高了性能，并采用渐进训练模式进一步提升了模型的性能。

Apr, 2024

强化学习推荐系统综述

本文对基于强化学习的推荐系统进行了综述，提出了一个 RLRS 框架，包括状态表示，策略优化，奖励制定和环境构建，并针对 RLRS 算法进行了调查，强调出现的主题并展示了各种图表。

Jan, 2021

基于模型的多智能体个性化短视频推荐系统

本文提出了一种基于强化学习框架的工业级短视频推荐排序系统，通过协作多智能体建模和最大化用户观看时间来解决用户多方面偏好的环境下，推荐会话的马尔可夫决策过程。此外，我们的框架采用基于模型的学习方法来缓解工业推荐系统中关键但难以解决的样本选择偏差问题。大量的离线评估和实时实验验证了我们所提出方法的有效性。我们的方法已成功部署在我们的实际大规模短视频分享平台上，为数亿用户提供服务。

May, 2024

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

强化学习优化推荐系统中的长期用户参与度

本论文介绍了一个基于强化学习的 FeedRec 框架来优化长期用户参与度，该框架包括 Hierarchical LSTM 的 Q-Network 和用于模拟环境、辅助 Q-Network 并避免策略学习收敛不稳定的 S-Network，实验结果表明 FeedRec 能够有效地优化长期用户参与度，并且优于现有的技术水平。

Feb, 2019

多任务推荐中的跨任务知识蒸馏

提出了一种交叉任务知识蒸馏框架，通过引入辅助任务和校准蒸馏方法，解决了多任务学习中涉及的任务冲突、不一致和同步优化的问题，在实现细粒度推荐、跨任务知识转移等方面有显著效果。

Feb, 2022

排名与评分：用于推荐系统的多任务学习

本文提出了一种利用用户的双重决策过程的多任务框架，针对推荐系统领域的排名和评分预测任务进行优化，通过在两个基准数据集上进行测试，证明了其优于现有技术的表现。

Jul, 2018

PrefRec: 基于用户偏好的推荐系统用于增强长期用户参与

本文提出了一种名为 PrefRec 的新模型，它基于用户历史行为的喜好训练基于强化学习的推荐器，可有效地优化长期用户参与度，在大量的实验中，PrefRec 在所有任务中显着优于之前的最先进方法。

Dec, 2022

综合评分、社交关系和评论的综合推荐方法

本文旨在探讨如何通过数据融合来提高评分预测的准确性，通过扩展 Social MF 模型以及提出新的 MR3 框架，即通过整合邻居关系、评分和隐藏主题等三种信息来创造新的推荐系统，提高了推荐系统的准确性。本文通过两个真实世界数据集的评测衡量了每种数据来源对所提出框架的贡献。

Jan, 2016