本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统,将用户与推荐系统之间的交互建模为马尔可夫决策过程,并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数,进一步提出了一种将列表式推荐纳入推荐系统的实验方法,并在真实世界的电子商务数据集上验证了该方法的有效性。
Dec, 2017
本文提出了一种基于强化学习框架的工业级短视频推荐排序系统,通过协作多智能体建模和最大化用户观看时间来解决用户多方面偏好的环境下,推荐会话的马尔可夫决策过程。此外,我们的框架采用基于模型的学习方法来缓解工业推荐系统中关键但难以解决的样本选择偏差问题。大量的离线评估和实时实验验证了我们所提出方法的有效性。我们的方法已成功部署在我们的实际大规模短视频分享平台上,为数亿用户提供服务。
May, 2024
本文提出了一个基于深度强化学习的新型页面推荐框架 ——DeepPage,旨在同时解决如何根据用户实时反馈更新推荐策略以及如何生成具有适当显示的项目页面两个关键问题,并在真实世界的电子商务数据集上进行实验证明了提出框架的有效性。
May, 2018
本研究提出了一个基于深度增强学习的新型推荐框架,称为 DRR,它将推荐视为一种顺序决策过程,并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互,同时考虑动态适应和长期回报,经过四个真实数据集的广泛实验,证明了 DRR 方法确实优于现有的竞争对手。
Oct, 2018
通过提出一种名为模型增强对比强化学习(MCRL)的新型强化学习推荐器,我们解决了离线数据集的稀疏性以及负反馈无法获取的问题,并通过对比学习来优化奖励函数和状态转移函数,实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。
Oct, 2023
本文对基于强化学习的推荐系统进行了综述,提出了一个 RLRS 框架,包括状态表示,策略优化,奖励制定和环境构建,并针对 RLRS 算法进行了调查,强调出现的主题并展示了各种图表。
Jan, 2021
本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足,为仍处于离线状态的推荐者提供强大的梯度信号支持,其中包括两个输出层;一个用于自我监督,另一个用于强化学习,从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。
Jun, 2020
本文探讨了使用多智能体强化学习在大型平台上进行多场景优化的问题,通过将搜索、推荐和广告等不同场景视为一种合作的、部分可观察的多智能体决策问题进行研究。我们引入了多智能体递归确定性策略梯度(MARDPG)算法,以共享目标对不同场景进行整合,并允许策略间的通信以提高整体性能。我们的结果表明,在点击率(CTR)、转化率和总销售额等指标上,我们的方法在实际环境中具有显著改进的效果。
Jul, 2024
该论文提出一种基于分层强化学习的推荐框架,其中高层代理获取长期稀疏的转化信号并设置抽象目标,而低层代理根据抽象目标与实时环境交互,提出了多目标抽象的深层分层强化学习算法并验证其有效性。
Mar, 2019
本研究探讨了基于关注度的序列推荐方法,将强化学习算法与序列建模相结合,并通过对比度目标和负采样策略来训练强化学习组件,以增加推荐系统的个性化反馈。同时,我们提出了一种增强方法,以应对真实数据集中可能出现的潜在不稳定性问题,进一步提高模型效率。
May, 2023