强化学习增强的对比模型用于顺序推荐

Oct, 2023

强化学习增强的对比模型用于顺序推荐

Model-enhanced Contrastive Reinforcement Learning for Sequential Recommendation

Chengpeng Li, Zhengyi Yang, Jizhi Zhang, Jiancan Wu, Dingxian Wang...

TL;DR通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Abstract

reinforcement learning (RL) has been widely applied in recommendation systems due to its potential in optimizing the long-term engagement of users. From the perspective of RL, recommendation can be formulated as

reinforcement learning recommendation systems offline datasets data sparsity model-enhanced contrastive reinforcement learning

发现论文，激发创造

自监督强化学习用于推荐系统

本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足，为仍处于离线状态的推荐者提供强大的梯度信号支持，其中包括两个输出层；一个用于自我监督，另一个用于强化学习，从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。

Jun, 2020

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

强化学习推荐系统综述

本文对基于强化学习的推荐系统进行了综述，提出了一个 RLRS 框架，包括状态表示，策略优化，奖励制定和环境构建，并针对 RLRS 算法进行了调查，强调出现的主题并展示了各种图表。

Jan, 2021

面向序列推荐系统的强化学习鲁棒目标

本研究探讨了基于关注度的序列推荐方法，将强化学习算法与序列建模相结合，并通过对比度目标和负采样策略来训练强化学习组件，以增加推荐系统的个性化反馈。同时，我们提出了一种增强方法，以应对真实数据集中可能出现的潜在不稳定性问题，进一步提高模型效率。

May, 2023

利用深度强化学习进行带有负反馈的推荐

文章提出了一种利用强化学习学习交互过程中优化策略的推荐系统，通过深度学习框架将正反馈同时整合到系统中进行优化，证明了该方法可以提高推荐精度。

Feb, 2018

基于低秩框架的推荐系统中的表示学习

提出了一种在推荐系统中使用强化学习优化推荐结果的样本高效表示学习算法，并构建了推荐模拟环境来解决这个问题。

Sep, 2023

基于深度强化学习的显式用户 - 物品交互模型推荐

本研究提出了一个基于深度增强学习的新型推荐框架，称为 DRR，它将推荐视为一种顺序决策过程，并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互，同时考虑动态适应和长期回报，经过四个真实数据集的广泛实验，证明了 DRR 方法确实优于现有的竞争对手。

Oct, 2018

基于模型的多智能体个性化短视频推荐系统

本文提出了一种基于强化学习框架的工业级短视频推荐排序系统，通过协作多智能体建模和最大化用户观看时间来解决用户多方面偏好的环境下，推荐会话的马尔可夫决策过程。此外，我们的框架采用基于模型的学习方法来缓解工业推荐系统中关键但难以解决的样本选择偏差问题。大量的离线评估和实时实验验证了我们所提出方法的有效性。我们的方法已成功部署在我们的实际大规模短视频分享平台上，为数亿用户提供服务。

May, 2024

带有对抗训练的模型强化学习在在线推荐中的应用

本篇论文提出了一种基于模型的强化学习解决方案，使用生成对抗网络对用户代理交互进行建模，实现了离线策略学习。理论分析和实证评估证明了该解决方案在从离线和生成数据学习策略方面的有效性。

Nov, 2019

对比价值学习：简单离线强化学习的隐式模型

本文介绍了一种新的模型 - 基强化学习方法 Contrastive Value Learning 用于离线场景中，在不受奖励函数限制下，学习一个隐含的、多步骤的环境动力学模型，直接估计每个动作的价值，并在复杂的连续控制基准测试中优于先前的离线 RL 方法。

Nov, 2022