寿命价值推荐系统的自动表示

Feb, 2017

Automatic Representation for Lifetime Value Recommender Systems

Assaf Hallak, Yishay Mansour, Elad Yom-Tov

TL;DR本文提出了一种新的架构，将强化学习与推荐系统相结合，以实现用户 - 系统交互的累积收益最大化，避免手动调整特征和自动化状态空间表示构建过程，同时在离线实际推荐数据上进行了实验和解决方案分析。

Abstract

Many modern commercial sites employ recommender systems to propose relevant content to users. While most systems are focused on maximizing the immediate gain (clicks, purchases or ratings), a better notion of success would be the →

recommender systems lifetime value reinforcement learning optimization real-world data

发现论文，激发创造

强化学习优化推荐系统中的长期用户参与度

本论文介绍了一个基于强化学习的 FeedRec 框架来优化长期用户参与度，该框架包括 Hierarchical LSTM 的 Q-Network 和用于模拟环境、辅助 Q-Network 并避免策略学习收敛不稳定的 S-Network，实验结果表明 FeedRec 能够有效地优化长期用户参与度，并且优于现有的技术水平。

Feb, 2019

通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值

本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统，实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中，我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。

May, 2023

电子商务系统中基于强化利润最大化的价值感知推荐

通过融合在线广告和微观经济基本概念到个性化推荐领域，我们提出了基于强化学习的价值感知推荐算法，该算法通过直接优化候选项的经济价值生成推荐列表，映射每种用户操作的货币化经济价值并以此作为排序列表的激励值，在线商业系统与离线基准测试中得到验证，证明了我们框架性能的提高，无论是传统的 top-$k$ 排名任务还是系统的经济利润。

Feb, 2019

基于 LLM 的推荐系统环境

通过利用大型语言模型（LLMs）模拟人类行为，本研究提出了一个综合框架，用于训练基于强化学习（RL）的推荐系统，并提供了深入的消融研究，通过电影和书籍推荐实验证明了其有效性。

Jun, 2024

PrefRec: 基于用户偏好的推荐系统用于增强长期用户参与

本文提出了一种名为 PrefRec 的新模型，它基于用户历史行为的喜好训练基于强化学习的推荐器，可有效地优化长期用户参与度，在大量的实验中，PrefRec 在所有任务中显着优于之前的最先进方法。

Dec, 2022

基于模型的多智能体个性化短视频推荐系统

本文提出了一种基于强化学习框架的工业级短视频推荐排序系统，通过协作多智能体建模和最大化用户观看时间来解决用户多方面偏好的环境下，推荐会话的马尔可夫决策过程。此外，我们的框架采用基于模型的学习方法来缓解工业推荐系统中关键但难以解决的样本选择偏差问题。大量的离线评估和实时实验验证了我们所提出方法的有效性。我们的方法已成功部署在我们的实际大规模短视频分享平台上，为数亿用户提供服务。

May, 2024

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

长期音频推荐的优化：强化学习视角

本文旨在通过强化学习模型，设计一个面向长期个性化推荐的算法，并验证其在千万用户下行业内的显著性能提升。

Feb, 2023

强化学习推荐系统综述

本文对基于强化学习的推荐系统进行了综述，提出了一个 RLRS 框架，包括状态表示，策略优化，奖励制定和环境构建，并针对 RLRS 算法进行了调查，强调出现的主题并展示了各种图表。

Jan, 2021

基于深度强化学习的显式用户 - 物品交互模型推荐

本研究提出了一个基于深度增强学习的新型推荐框架，称为 DRR，它将推荐视为一种顺序决策过程，并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互，同时考虑动态适应和长期回报，经过四个真实数据集的广泛实验，证明了 DRR 方法确实优于现有的竞争对手。

Oct, 2018