基于强化学习的创作素材推荐

Jan, 2023

Generative Slate Recommendation with Reinforcement Learning

Romain Deffayet, Thibaut Thonet, Jean-Michel Render, Maarten de Rijke

TL;DR通过使用变分自编码器学习连续、低维的隐空间，从而在连续的潜在空间中选择筛选项，最终被解码成对应的筛选板，从而提高推荐系统的效果和多样性。

Abstract

Recent research has employed reinforcement learning (RL) algorithms to optimize long-term user engagement in recommender systems, thereby avoiding common pitfalls such as user boredom and filter bubbles. They capture the sequential and interactive nature of recommendations, and thus of

发现论文，激发创造

使用关注力的深度强化学习用于拥有高维状态和动作的Slate Markov决策过程

介绍了一种新的深度 Q 学习算法，用于处理高维度下的推荐系统问题，该算法将基于特征表示的深度 Q 学习与 Slate Markov 决策过程相结合，优化了策略的组合和序列属性，并采用深度确定性策略梯度和风险探索，提高了智能体的性能和发现潜在策略的能力。

Dec, 2015

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户-代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

通过列表-条件变分自编码器进行排序优化

该研究提出了一种使用基于用户反馈的条件变分自编码器直接生成满足用户兴趣的完整产品列表的方法，相比于传统文档排名方法，该方法更有效地解决了页面布局和文档相互依赖性造成的偏差。

Mar, 2018

RecoGym：在线广告推荐问题的强化学习环境

介绍了 RecoGym，一个基于强化学习的环境，旨在解决基于历史数据的监督学习建模在在线实践应用中缺乏表现优异的问题。通过模拟用户与产品之间的交互信息，有效地提高了推荐系统的实时性和准确性。

Aug, 2018

基于对抗生成网络的强化学习推荐系统用户模型

该论文提出了一种新颖的基于生成对抗网络的强化学习框架，以解决在推荐系统中无法明确定义环境奖励函数和动态环境的应用挑战，使用该框架开发了一个用户模型作为仿真环境，开发了一种新颖的Cascading DQN算法来获得一个组合推荐策略，实验证明这个生成对抗用户模型可以更好地解释用户行为，并且基于该模型的RL策略能够为用户带来更好的长期回报和系统的点击率。

Dec, 2018

基于石板的推荐系统的强化学习: 可行的分解和实用方法论

该研究提供了使用深度强化学习技术解决个性化推荐系统中长期用户参与度问题的方法，通过分解价值函数，考虑了物品组合效应，并实验证明了该方法的可行性和扩展性。

May, 2019

生成式推荐的变异控制和评估

本文提出采用多样性度量方法来增强精度评估，这样可以估计生成模型的随机行为。我们提出了一个有效的生成解决方案，它位于两个极端的尺肘区域之间，并演示了物品扰动可以强制执行以更好的覆盖物品变化，并将性能扩展到易于发现的区域。我们进一步提出将中心枢轴选择阶段与生成过程分开，以便于应用扰动，实验结果表明，这种简单的修改可以提供更好的方差与同等精度的后生成扰动方法相比。

Feb, 2021

使用门控循环单元和汤普森抽样的动态石板推荐

通过建立一种基于变分贝叶斯递归神经网络的推荐系统，利用用户和网络交互的时间序列数据，自适应地为用户提供适宜的内容，同时引入一种层级先验以及组内成员关系考虑的项参数学习方法，结合多臂老虎机策略以及 slate Thompson Sampling 算法优化推荐效果，并在在线实验和来自挪威 FINN.no 平台的离线数据测试中验证了该方法的有效性。

Apr, 2021

SlateFree: 一种基于模型的分解方法用于带有分段动作的强化学习

提出了一种基于强化学习的新算法SlateFree，使用MDP框架，将大量的物品进行分组，通过Q-learning算法进行在线学习，能够有效地解决顺序推荐问题。

Sep, 2022

基于低秩框架的推荐系统中的表示学习

提出了一种在推荐系统中使用强化学习优化推荐结果的样本高效表示学习算法，并构建了推荐模拟环境来解决这个问题。

Sep, 2023