基于强化学习的序列推荐的高效连续控制视角

Aug, 2024

基于强化学习的序列推荐的高效连续控制视角

An Efficient Continuous Control Perspective for Reinforcement-Learning-based Sequential Recommendation

Jun Wang, Likang Wu, Qi Liu, Yu Yang

TL;DR本研究旨在解决传统离线强化学习推荐系统在处理日益增长的项目时面临的效率问题。我们提出一种高效连续控制框架（ECoC），实现了统一动作表示和相应的策略评估与改进过程，有效提升了推荐决策的策略探索与控制能力。实验结果表明，与离散基线相比，ECoC在训练效率和长远收益上均表现显著优越。

Abstract

Sequential Recommendation, where User Preference is dynamically inferred from sequential historical behaviors, is a critical task in recommender systems (RSs). To further optimize long-term user engagement, offli

发现论文，激发创造

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户-代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

自监督强化学习用于推荐系统

本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足，为仍处于离线状态的推荐者提供强大的梯度信号支持，其中包括两个输出层；一个用于自我监督，另一个用于强化学习，从而实现顾虑到长期用户参与度以及多种用户-项目交互等因素的推荐任务。

Jun, 2020

PrefRec: 基于用户偏好的推荐系统用于增强长期用户参与

本文提出了一种名为PrefRec的新模型，它基于用户历史行为的喜好训练基于强化学习的推荐器，可有效地优化长期用户参与度，在大量的实验中，PrefRec在所有任务中显着优于之前的最先进方法。

Dec, 2022

面向序列推荐系统的强化学习鲁棒目标

本研究探讨了基于关注度的序列推荐方法，将强化学习算法与序列建模相结合，并通过对比度目标和负采样策略来训练强化学习组件，以增加推荐系统的个性化反馈。同时，我们提出了一种增强方法，以应对真实数据集中可能出现的潜在不稳定性问题，进一步提高模型效率。

May, 2023

离线强化学习在推荐系统中的机遇与挑战

该研究综述了利用离线强化学习应对推荐系统中数据效率低下的问题，着重介绍了现有文献在该领域的研究成果，同时强调了该领域面临的挑战、机遇和未来研究方向。

Aug, 2023

一个通用的离线强化学习框架用于交互推荐

该论文研究了在在线环境中无需探索的情况下，从已记录的反馈中学习互动推荐系统的问题，并提出了一种通用的离线强化学习框架用于推荐，可以通过最大化累积用户奖励来解决问题。为了更有效地进行离线学习，我们提出了五种方法来最小化记录策略和推荐策略之间的分布不匹配：支持约束、监督正则化、策略约束、双重约束和奖励外推。我们在两个公开的现实世界数据集上进行了广泛的实验，证明了所提出的方法在推荐方面相对于现有的监督学习和强化学习方法具有优越的性能。

Oct, 2023

AdaRec：适应性顺序推荐以增强用户的长期参与

AdaRec是一种适应性的顺序推荐模型，利用基于距离的表示损失从用户的交互轨迹中提取潜在信息，帮助策略识别推荐系统的细微变化，并通过乐观推测的方式进行探索，同时使用零阶动作优化以在复杂环境中保持稳定的推荐质量。在模拟器和实际应用中，AdaRec在长期性能方面优于所有基准算法。

Oct, 2023

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

EasyRL4Rec：基于强化学习的推荐系统用户友好代码库

EasyRL4Rec是一种面向基于强化学习推荐系统的用户友好且高效的库，具有轻量级、多样化的强化学习环境，详细的核心模块以及与推荐系统相适应的定制解决方案，旨在促进强化学习推荐系统领域的模型开发和实验过程。

Feb, 2024

大规模推荐系统中多任务融合的离策略增强学习算法定制化

为了解决多任务融合中的严重问题，提出一种定制的离策略强化学习算法，该算法整合了离策略强化学习模型和在线探索策略，大幅度提高了性能，并采用渐进训练模式进一步提升了模型的性能。

Apr, 2024