面向序列推荐系统的强化学习鲁棒目标

May, 2023

面向序列推荐系统的强化学习鲁棒目标

Robust Reinforcement Learning Objectives for Sequential Recommender Systems

Melissa Mozifian, Tristan Sylvain, Dave Evans, Lili Meng

TL;DR本研究探讨了基于关注度的序列推荐方法，将强化学习算法与序列建模相结合，并通过对比度目标和负采样策略来训练强化学习组件，以增加推荐系统的个性化反馈。同时，我们提出了一种增强方法，以应对真实数据集中可能出现的潜在不稳定性问题，进一步提高模型效率。

Abstract

Attention-based sequential recommendation methods have demonstrated promising results by accurately capturing users' dynamic interests from historical interactions. In addition to generating superior user representations, recent studies have begun integrating reinforcement learning (RL

attention-based recommendation reinforcement learning contrastive-based objectives negative sampling personalized experience

发现论文，激发创造

自监督强化学习用于推荐系统

本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足，为仍处于离线状态的推荐者提供强大的梯度信号支持，其中包括两个输出层；一个用于自我监督，另一个用于强化学习，从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。

Jun, 2020

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

强化学习推荐系统综述

本文对基于强化学习的推荐系统进行了综述，提出了一个 RLRS 框架，包括状态表示，策略优化，奖励制定和环境构建，并针对 RLRS 算法进行了调查，强调出现的主题并展示了各种图表。

Jan, 2021

选择两全其美：通过多目标强化学习实现多样化且新颖的推荐

介绍了一种新的强化学习框架 SMORL，可在多重目标推荐任务中同时增加准确性，多样性和新颖性。该实验表明，在两个真实世界的数据集上，与仅关注准确性的单一目标强化学习代理相比，推荐多样性显著增加，准确性适度提高，而推荐的重复性也得到了减少，并强调了多样性和新颖性的重要性。

Oct, 2021

离线强化学习在推荐系统中的机遇与挑战

该研究综述了利用离线强化学习应对推荐系统中数据效率低下的问题，着重介绍了现有文献在该领域的研究成果，同时强调了该领域面临的挑战、机遇和未来研究方向。

Aug, 2023

监督增强演员 - 评论家算法用于推荐系统

本研究提出了一种负采样策略，称为 Supervised Negative Q-learning，用于强化学习组件的训练，并将其与监督式的序列学习相结合，从而解决了强化学习在推荐系统中应用时遇到的问题。实验表明，此方法在两个真实数据集上的表现优于现有的监督式方法和自我监督式的强化学习方法。

Nov, 2021

全链路推荐

本研究提出了一种基于多智能体强化学习的方法（DeepChain），应用模型为基础的强化学习技术，以解决现有强化学习模型中针对多场景推荐问题的数据大量需求和奖励分配不均衡等难题。实验结果表明该框架具有较好的推荐效果。

Feb, 2019

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

离线强化学习问题的序列建模方法

本文介绍了如何使用序列建模来解决强化学习问题，使用 Transformer 架构来建模轨迹上的分布，并改造了波束搜索作为规划算法，在长时间序列预测、模仿学习、目标条件下的强化学习和离线强化学习等方面展示了该方法的灵活性和高效性，同时将该方法与基于模型的算法相结合，使其在稀疏奖励、长时间序列任务中表现为最先进的计划器。

Jun, 2021

基于深度强化学习的显式用户 - 物品交互模型推荐

本研究提出了一个基于深度增强学习的新型推荐框架，称为 DRR，它将推荐视为一种顺序决策过程，并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互，同时考虑动态适应和长期回报，经过四个真实数据集的广泛实验，证明了 DRR 方法确实优于现有的竞争对手。

Oct, 2018