基于石板的推荐系统的强化学习：可行的分解和实用方法论

IJCAIMay, 2019

基于石板的推荐系统的强化学习：可行的分解和实用方法论

Reinforcement Learning for Slate-based Recommender Systems: A Tractable Decomposition and Practical Methodology

Eugene Ie, Vihan Jain, Jing Wang, Sanmit Narvekar, Ritesh Agarwal...

TL;DR该研究提供了使用深度强化学习技术解决个性化推荐系统中长期用户参与度问题的方法，通过分解价值函数，考虑了物品组合效应，并实验证明了该方法的可行性和扩展性。

Abstract

Most practical recommender systems focus on estimating immediate user engagement without considering the long-term effects of recommendations on user behavior. reinforcement learning (RL) methods offer the potent

recommender systems long-term engagement reinforcement learning slate-based recommendations td-learning

发现论文，激发创造

基于强化学习的创作素材推荐

通过使用变分自编码器学习连续、低维的隐空间，从而在连续的潜在空间中选择筛选项，最终被解码成对应的筛选板，从而提高推荐系统的效果和多样性。

Jan, 2023

基于低秩框架的推荐系统中的表示学习

提出了一种在推荐系统中使用强化学习优化推荐结果的样本高效表示学习算法，并构建了推荐模拟环境来解决这个问题。

Sep, 2023

SlateFree: 一种基于模型的分解方法用于带有分段动作的强化学习

提出了一种基于强化学习的新算法 SlateFree，使用 MDP 框架，将大量的物品进行分组，通过 Q-learning 算法进行在线学习，能够有效地解决顺序推荐问题。

Sep, 2022

强化学习优化推荐系统中的长期用户参与度

本论文介绍了一个基于强化学习的 FeedRec 框架来优化长期用户参与度，该框架包括 Hierarchical LSTM 的 Q-Network 和用于模拟环境、辅助 Q-Network 并避免策略学习收敛不稳定的 S-Network，实验结果表明 FeedRec 能够有效地优化长期用户参与度，并且优于现有的技术水平。

Feb, 2019

自监督强化学习用于推荐系统

本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足，为仍处于离线状态的推荐者提供强大的梯度信号支持，其中包括两个输出层；一个用于自我监督，另一个用于强化学习，从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。

Jun, 2020

寿命价值推荐系统的自动表示

本文提出了一种新的架构，将强化学习与推荐系统相结合，以实现用户 - 系统交互的累积收益最大化，避免手动调整特征和自动化状态空间表示构建过程，同时在离线实际推荐数据上进行了实验和解决方案分析。

Feb, 2017

快速高效的垒位策略优化：超越普拉基特–卢斯模型

大规模机器学习系统的一个关键组成部分是返回选项列表；这篇论文在给定任意奖励函数的情况下，通过在决策函数上应用一种新的松弛技术，提出了一种简单而高效的学习算法来优化这些大规模决策系统，能够扩展到庞大的动作空间规模，相比常用的 Plackett-Luce 策略类，证明了该方法的有效性。

Aug, 2023

通过基于策略的强化学习优化基于拍卖的推荐系统的长期价值

本研究利用强化学习中的时差学习算法优化基于竞拍的推荐系统，实现一步政策改进方法并优先考虑长期用户参与度指标。在处理数十亿次曝光和用户日活跃用户的基于拍卖的推荐系统的在线 A / B 测试中，我们经验性地证明了我们的方法在长期用户参与度指标方面优于当前生产系统。

May, 2023

使用门控循环单元和汤普森抽样的动态石板推荐

通过建立一种基于变分贝叶斯递归神经网络的推荐系统，利用用户和网络交互的时间序列数据，自适应地为用户提供适宜的内容，同时引入一种层级先验以及组内成员关系考虑的项参数学习方法，结合多臂老虎机策略以及 slate Thompson Sampling 算法优化推荐效果，并在在线实验和来自挪威 FINN.no 平台的离线数据测试中验证了该方法的有效性。

Apr, 2021

使用关注力的深度强化学习用于拥有高维状态和动作的 Slate Markov 决策过程

介绍了一种新的深度 Q 学习算法，用于处理高维度下的推荐系统问题，该算法将基于特征表示的深度 Q 学习与 Slate Markov 决策过程相结合，优化了策略的组合和序列属性，并采用深度确定性策略梯度和风险探索，提高了智能体的性能和发现潜在策略的能力。

Dec, 2015