基于强化学习的创作素材推荐
介绍了一种新的深度 Q 学习算法,用于处理高维度下的推荐系统问题,该算法将基于特征表示的深度 Q 学习与 Slate Markov 决策过程相结合,优化了策略的组合和序列属性,并采用深度确定性策略梯度和风险探索,提高了智能体的性能和发现潜在策略的能力。
Dec, 2015
本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统,将用户与推荐系统之间的交互建模为马尔可夫决策过程,并通过在线用户-代理交互环境模拟器来预训练和评估模型参数,进一步提出了一种将列表式推荐纳入推荐系统的实验方法,并在真实世界的电子商务数据集上验证了该方法的有效性。
Dec, 2017
该研究提出了一种使用基于用户反馈的条件变分自编码器直接生成满足用户兴趣的完整产品列表的方法,相比于传统文档排名方法,该方法更有效地解决了页面布局和文档相互依赖性造成的偏差。
Mar, 2018
介绍了 RecoGym,一个基于强化学习的环境,旨在解决基于历史数据的监督学习建模在在线实践应用中缺乏表现优异的问题。通过模拟用户与产品之间的交互信息,有效地提高了推荐系统的实时性和准确性。
Aug, 2018
该论文提出了一种新颖的基于生成对抗网络的强化学习框架,以解决在推荐系统中无法明确定义环境奖励函数和动态环境的应用挑战,使用该框架开发了一个用户模型作为仿真环境,开发了一种新颖的Cascading DQN算法来获得一个组合推荐策略,实验证明这个生成对抗用户模型可以更好地解释用户行为,并且基于该模型的RL策略能够为用户带来更好的长期回报和系统的点击率。
Dec, 2018
该研究提供了使用深度强化学习技术解决个性化推荐系统中长期用户参与度问题的方法,通过分解价值函数,考虑了物品组合效应,并实验证明了该方法的可行性和扩展性。
May, 2019
本文提出采用多样性度量方法来增强精度评估,这样可以估计生成模型的随机行为。我们提出了一个有效的生成解决方案,它位于两个极端的尺肘区域之间,并演示了物品扰动可以强制执行以更好的覆盖物品变化,并将性能扩展到易于发现的区域。我们进一步提出将中心枢轴选择阶段与生成过程分开,以便于应用扰动,实验结果表明,这种简单的修改可以提供更好的方差与同等精度的后生成扰动方法相比。
Feb, 2021
通过建立一种基于变分贝叶斯递归神经网络的推荐系统,利用用户和网络交互的时间序列数据,自适应地为用户提供适宜的内容,同时引入一种层级先验以及组内成员关系考虑的项参数学习方法,结合多臂老虎机策略以及 slate Thompson Sampling 算法优化推荐效果,并在在线实验和来自挪威 FINN.no 平台的离线数据测试中验证了该方法的有效性。
Apr, 2021
提出了一种基于强化学习的新算法SlateFree,使用MDP框架,将大量的物品进行分组,通过Q-learning算法进行在线学习,能够有效地解决顺序推荐问题。
Sep, 2022