大规模推荐系统中的缓存感知强化学习

Apr, 2024

大规模推荐系统中的缓存感知强化学习

Cache-Aware Reinforcement Learning in Large-Scale Recommender Systems

Xiaoshuang Chen, Gengrui Zhang, Yao Wang, Yulin Wu, Shuo Su...

TL;DR本文提出了一种缓存感知的强化学习方法（CARL），通过实时计算和缓存的联合优化来改善用户参与度，并通过实验表明 CARL 在考虑结果缓存时能显著提高用户参与度。CARL 已在快手应用完全推出，并服务于超过一亿用户。

Abstract

Modern large-scale recommender systems are built upon computation-intensive infrastructure and usually suffer from a huge difference in traffic between peak and off-peak periods. In peak periods, it is challenging to perform →

recommender systems real-time computation cache reinforcement learning user engagement

发现论文，激发创造

面向上下文的用户 - 物品表示学习用于物品推荐

该论文提出了一种名为 CARL 的新型上下文感知用户 - 物品表示学习模型，可用于评级预测，其采用因子分解机进一步建模用户 - 物品对的更高阶特征交互，并通过卷积和注意力机制提取相应的评论特征和交互特征。五个真实数据集上的实验证明，CARL 比现有的最先进的替代方案实现了显着更好的评分预测准确性，并使用注意力机制突出显示评论中的相关信息以解释评级预测。

Dec, 2017

基于强化学习空时流行度的 5G 最优可扩展缓存

本研究提出了一个基于强化学习和全局 / 本地 Markov 过程的缓存策略框架，用于预取受欢迎的文件，以便下一次请求时可以快速提供服务。

Jul, 2017

利用深度强化学习在无小区大规模 MIMO 系统中进行边缘缓存

本文提出使用缓存算法和深度强化学习等技术，来解决铁路无线通信中，列车高速对信号传输产生的影响，从而提高服务体验质量和用户满意度。

Aug, 2022

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

强化学习增强的缓存：实验研究

使用机器学习和加强式算法提高缓存置换的性能

Jun, 2021

基于深度多智能体强化学习的无线网络合作边缘缓存

本文提出一种基于多智能体框架的深度强化学习方法以最小化整体平均传输延迟，通过与三种不同的缓存策略对比，结果显示出该算法对于不同环境的能力更强，性能也更好。

May, 2019

强化学习推荐系统综述

本文对基于强化学习的推荐系统进行了综述，提出了一个 RLRS 框架，包括状态表示，策略优化，奖励制定和环境构建，并针对 RLRS 算法进行了调查，强调出现的主题并展示了各种图表。

Jan, 2021

自监督强化学习用于推荐系统

本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足，为仍处于离线状态的推荐者提供强大的梯度信号支持，其中包括两个输出层；一个用于自我监督，另一个用于强化学习，从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。

Jun, 2020

基于深度强化学习的显式用户 - 物品交互模型推荐

本研究提出了一个基于深度增强学习的新型推荐框架，称为 DRR，它将推荐视为一种顺序决策过程，并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互，同时考虑动态适应和长期回报，经过四个真实数据集的广泛实验，证明了 DRR 方法确实优于现有的竞争对手。

Oct, 2018