全链路推荐

Feb, 2019

Whole-Chain Recommendations

Xiangyu Zhao, Long Xia, Linxin Zou, Hui Liu, Dawei Yin...

TL;DR本研究提出了一种基于多智能体强化学习的方法（DeepChain），应用模型为基础的强化学习技术，以解决现有强化学习模型中针对多场景推荐问题的数据大量需求和奖励分配不均衡等难题。实验结果表明该框架具有较好的推荐效果。

Abstract

With the recent prevalence of reinforcement learning (RL), there have been tremendous interests in developing rl-based recommender systems. In practical recommendation sessions, users will sequentially access mul

reinforcement learning rl-based recommender systems multi-agent deepchain model-based rl techniques

发现论文，激发创造

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

基于模型的多智能体个性化短视频推荐系统

本文提出了一种基于强化学习框架的工业级短视频推荐排序系统，通过协作多智能体建模和最大化用户观看时间来解决用户多方面偏好的环境下，推荐会话的马尔可夫决策过程。此外，我们的框架采用基于模型的学习方法来缓解工业推荐系统中关键但难以解决的样本选择偏差问题。大量的离线评估和实时实验验证了我们所提出方法的有效性。我们的方法已成功部署在我们的实际大规模短视频分享平台上，为数亿用户提供服务。

May, 2024

基于深度强化学习的页面推荐

本文提出了一个基于深度强化学习的新型页面推荐框架 ——DeepPage，旨在同时解决如何根据用户实时反馈更新推荐策略以及如何生成具有适当显示的项目页面两个关键问题，并在真实世界的电子商务数据集上进行实验证明了提出框架的有效性。

May, 2018

基于深度强化学习的显式用户 - 物品交互模型推荐

本研究提出了一个基于深度增强学习的新型推荐框架，称为 DRR，它将推荐视为一种顺序决策过程，并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互，同时考虑动态适应和长期回报，经过四个真实数据集的广泛实验，证明了 DRR 方法确实优于现有的竞争对手。

Oct, 2018

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

强化学习推荐系统综述

本文对基于强化学习的推荐系统进行了综述，提出了一个 RLRS 框架，包括状态表示，策略优化，奖励制定和环境构建，并针对 RLRS 算法进行了调查，强调出现的主题并展示了各种图表。

Jan, 2021

自监督强化学习用于推荐系统

本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足，为仍处于离线状态的推荐者提供强大的梯度信号支持，其中包括两个输出层；一个用于自我监督，另一个用于强化学习，从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。

Jun, 2020

基于多智能体强化学习的多方案组合优化广告推荐系统

本文探讨了使用多智能体强化学习在大型平台上进行多场景优化的问题，通过将搜索、推荐和广告等不同场景视为一种合作的、部分可观察的多智能体决策问题进行研究。我们引入了多智能体递归确定性策略梯度（MARDPG）算法，以共享目标对不同场景进行整合，并允许策略间的通信以提高整体性能。我们的结果表明，在点击率（CTR）、转化率和总销售额等指标上，我们的方法在实际环境中具有显著改进的效果。

Jul, 2024

基于深层次层次强化学习的多目标抽象推荐

该论文提出一种基于分层强化学习的推荐框架，其中高层代理获取长期稀疏的转化信号并设置抽象目标，而低层代理根据抽象目标与实时环境交互，提出了多目标抽象的深层分层强化学习算法并验证其有效性。

Mar, 2019

面向序列推荐系统的强化学习鲁棒目标

本研究探讨了基于关注度的序列推荐方法，将强化学习算法与序列建模相结合，并通过对比度目标和负采样策略来训练强化学习组件，以增加推荐系统的个性化反馈。同时，我们提出了一种增强方法，以应对真实数据集中可能出现的潜在不稳定性问题，进一步提高模型效率。

May, 2023