强化学习优化推荐系统中的长期用户参与度

Feb, 2019

强化学习优化推荐系统中的长期用户参与度

Reinforcement Learning to Optimize Long-term User Engagement in Recommender Systems

Lixin Zou, Long Xia, Zhuoye Ding, Jiaxing Song, Weidong Liu...

TL;DR本论文介绍了一个基于强化学习的 FeedRec 框架来优化长期用户参与度，该框架包括 Hierarchical LSTM 的 Q-Network 和用于模拟环境、辅助 Q-Network 并避免策略学习收敛不稳定的 S-Network，实验结果表明 FeedRec 能够有效地优化长期用户参与度，并且优于现有的技术水平。

Abstract

recommender systems play a crucial role in our daily lives. feed streaming mechanism has been widely used in the recommender system, especially on the mobile Apps. The →

recommender systems feed streaming long-term user engagement reinforcement learning q-network

发现论文，激发创造

PrefRec: 基于用户偏好的推荐系统用于增强长期用户参与

本文提出了一种名为 PrefRec 的新模型，它基于用户历史行为的喜好训练基于强化学习的推荐器，可有效地优化长期用户参与度，在大量的实验中，PrefRec 在所有任务中显着优于之前的最先进方法。

Dec, 2022

通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值

本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统，实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中，我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。

May, 2023

长期音频推荐的优化：强化学习视角

本文旨在通过强化学习模型，设计一个面向长期个性化推荐的算法，并验证其在千万用户下行业内的显著性能提升。

Feb, 2023

寿命价值推荐系统的自动表示

本文提出了一种新的架构，将强化学习与推荐系统相结合，以实现用户 - 系统交互的累积收益最大化，避免手动调整特征和自动化状态空间表示构建过程，同时在离线实际推荐数据上进行了实验和解决方案分析。

Feb, 2017

面向交互推荐系统中的长期用户反馈验证

通过重新访问基于回顾数据集的 IRS 实验，我们将 RL 模型与简单的奖励模型进行比较，发现简单贪婪的奖励模型在最大化累积奖励方面一直优于 RL 模型；而将长期奖励赋予更高权重会导致推荐性能下降；用户反馈对基准数据集仅有长期影响。因此，我们得出结论：数据集需要经过谨慎验证，并且在评估 RL-IRS 方法时应包含简单贪婪基线。

Aug, 2023

自监督强化学习用于推荐系统

本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足，为仍处于离线状态的推荐者提供强大的梯度信号支持，其中包括两个输出层；一个用于自我监督，另一个用于强化学习，从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。

Jun, 2020

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

学会休息：可持续优化长期用户参与度

本文旨在提高用户参与度的同时避免滥用或成瘾行为，介绍了使用 Lotka-Volterra 动力学模型的框架，学习个性化休息策略并通过半合成数据的理论保证和实证评估了其性能。

Nov, 2022

基于深度强化学习的显式用户 - 物品交互模型推荐

本研究提出了一个基于深度增强学习的新型推荐框架，称为 DRR，它将推荐视为一种顺序决策过程，并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互，同时考虑动态适应和长期回报，经过四个真实数据集的广泛实验，证明了 DRR 方法确实优于现有的竞争对手。

Oct, 2018

基于 LLM 的推荐系统环境

通过利用大型语言模型（LLMs）模拟人类行为，本研究提出了一个综合框架，用于训练基于强化学习（RL）的推荐系统，并提供了深入的消融研究，通过电影和书籍推荐实验证明了其有效性。

Jun, 2024