通过使用变分自编码器学习连续、低维的隐空间,从而在连续的潜在空间中选择筛选项,最终被解码成对应的筛选板,从而提高推荐系统的效果和多样性。
Jan, 2023
该研究提供了使用深度强化学习技术解决个性化推荐系统中长期用户参与度问题的方法,通过分解价值函数,考虑了物品组合效应,并实验证明了该方法的可行性和扩展性。
May, 2019
通过提出一种名为模型增强对比强化学习(MCRL)的新型强化学习推荐器,我们解决了离线数据集的稀疏性以及负反馈无法获取的问题,并通过对比学习来优化奖励函数和状态转移函数,实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。
Oct, 2023
本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统,将用户与推荐系统之间的交互建模为马尔可夫决策过程,并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数,进一步提出了一种将列表式推荐纳入推荐系统的实验方法,并在真实世界的电子商务数据集上验证了该方法的有效性。
Dec, 2017
本文对基于强化学习的推荐系统进行了综述,提出了一个 RLRS 框架,包括状态表示,策略优化,奖励制定和环境构建,并针对 RLRS 算法进行了调查,强调出现的主题并展示了各种图表。
Jan, 2021
本文提出了一种名为 ReLEX 的算法,旨在通过学习表示和执行探索操作,提高代表低秩 MDPs 类的效率,该算法在方法上始终不劣于最先进的无表示学习算法,并且在表示能够对整个状态 - 动作空间具有一定的 “覆盖性” 时会严格提高样本效率。
Jun, 2021
本文研究了如何在低秩马尔可夫决策过程中进行紧凑的低维表示的表示学习,并致力于改进样本复杂度,并提出 REP-UCB 算法。
Oct, 2021
通过利用大型语言模型(LLMs)模拟人类行为,本研究提出了一个综合框架,用于训练基于强化学习(RL)的推荐系统,并提供了深入的消融研究,通过电影和书籍推荐实验证明了其有效性。
Jun, 2024
本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足,为仍处于离线状态的推荐者提供强大的梯度信号支持,其中包括两个输出层;一个用于自我监督,另一个用于强化学习,从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。
Jun, 2020
本文提出了一种基于强化学习框架的工业级短视频推荐排序系统,通过协作多智能体建模和最大化用户观看时间来解决用户多方面偏好的环境下,推荐会话的马尔可夫决策过程。此外,我们的框架采用基于模型的学习方法来缓解工业推荐系统中关键但难以解决的样本选择偏差问题。大量的离线评估和实时实验验证了我们所提出方法的有效性。我们的方法已成功部署在我们的实际大规模短视频分享平台上,为数亿用户提供服务。
May, 2024