寿命价值推荐系统的自动表示
本论文介绍了一个基于强化学习的 FeedRec 框架来优化长期用户参与度,该框架包括 Hierarchical LSTM 的 Q-Network 和用于模拟环境、辅助 Q-Network 并避免策略学习收敛不稳定的 S-Network,实验结果表明 FeedRec 能够有效地优化长期用户参与度,并且优于现有的技术水平。
Feb, 2019
本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统,实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中,我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。
May, 2023
通过融合在线广告和微观经济基本概念到个性化推荐领域,我们提出了基于强化学习的价值感知推荐算法,该算法通过直接优化候选项的经济价值生成推荐列表,映射每种用户操作的货币化经济价值并以此作为排序列表的激励值,在线商业系统与离线基准测试中得到验证,证明了我们框架性能的提高,无论是传统的 top-$k$ 排名任务还是系统的经济利润。
Feb, 2019
通过利用大型语言模型(LLMs)模拟人类行为,本研究提出了一个综合框架,用于训练基于强化学习(RL)的推荐系统,并提供了深入的消融研究,通过电影和书籍推荐实验证明了其有效性。
Jun, 2024
本文提出了一种名为 PrefRec 的新模型,它基于用户历史行为的喜好训练基于强化学习的推荐器,可有效地优化长期用户参与度,在大量的实验中,PrefRec 在所有任务中显着优于之前的最先进方法。
Dec, 2022
本文提出了一种基于强化学习框架的工业级短视频推荐排序系统,通过协作多智能体建模和最大化用户观看时间来解决用户多方面偏好的环境下,推荐会话的马尔可夫决策过程。此外,我们的框架采用基于模型的学习方法来缓解工业推荐系统中关键但难以解决的样本选择偏差问题。大量的离线评估和实时实验验证了我们所提出方法的有效性。我们的方法已成功部署在我们的实际大规模短视频分享平台上,为数亿用户提供服务。
May, 2024
本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统,将用户与推荐系统之间的交互建模为马尔可夫决策过程,并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数,进一步提出了一种将列表式推荐纳入推荐系统的实验方法,并在真实世界的电子商务数据集上验证了该方法的有效性。
Dec, 2017
本文对基于强化学习的推荐系统进行了综述,提出了一个 RLRS 框架,包括状态表示,策略优化,奖励制定和环境构建,并针对 RLRS 算法进行了调查,强调出现的主题并展示了各种图表。
Jan, 2021
本研究提出了一个基于深度增强学习的新型推荐框架,称为 DRR,它将推荐视为一种顺序决策过程,并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互,同时考虑动态适应和长期回报,经过四个真实数据集的广泛实验,证明了 DRR 方法确实优于现有的竞争对手。
Oct, 2018