基于对抗生成网络的强化学习推荐系统用户模型

Dec, 2018

基于对抗生成网络的强化学习推荐系统用户模型

Generative Adversarial User Model for Reinforcement Learning Based Recommendation System

Xinshi Chen, Shuang Li, Hui Li, Shaohua Jiang, Yuan Qi...

TL;DR该论文提出了一种新颖的基于生成对抗网络的强化学习框架，以解决在推荐系统中无法明确定义环境奖励函数和动态环境的应用挑战，使用该框架开发了一个用户模型作为仿真环境，开发了一种新颖的 Cascading DQN 算法来获得一个组合推荐策略，实验证明这个生成对抗用户模型可以更好地解释用户行为，并且基于该模型的 RL 策略能够为用户带来更好的长期回报和系统的点击率。

Abstract

There are great interests as well as many challenges in applying reinforcement learning (RL) to recommendation systems. In this setting, an online user is the environment; neither the reward function nor the envi

reinforcement learning recommendation systems user model generative adversarial network cascading dqn

发现论文，激发创造

带有对抗训练的模型强化学习在在线推荐中的应用

本篇论文提出了一种基于模型的强化学习解决方案，使用生成对抗网络对用户代理交互进行建模，实现了离线策略学习。理论分析和实证评估证明了该解决方案在从离线和生成数据学习策略方面的有效性。

Nov, 2019

基于强化学习的推荐系统中环境模拟的研究

本文介绍了一种基于生成对抗网络的用户模拟器，可以用于预先训练和评估新的基于强化学习的推荐算法，并使用真实世界的电子商务数据进行实验验证。

Jun, 2019

生成对抗奖励学习用于泛化行为倾向推断

提出了一种基于生成式逆强化学习的用户行为偏好建模方法，该方法可以自动学习用户的行为奖励函数，并通过辨别式演员 - 评论家网络和 Wasserstein 生成对抗网络进行建模和解释，实验证明该方法在交通信号控制、在线推荐系统和注视路径预测等场景下优于现有的方法。

May, 2021

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

基于深度强化学习的显式用户 - 物品交互模型推荐

本研究提出了一个基于深度增强学习的新型推荐框架，称为 DRR，它将推荐视为一种顺序决策过程，并采用 “Actor-Critic” 增强学习方案来模拟用户与推荐系统之间的交互，同时考虑动态适应和长期回报，经过四个真实数据集的广泛实验，证明了 DRR 方法确实优于现有的竞争对手。

Oct, 2018

DEAR: 推荐系统中用于在线广告展示的深度强化学习

本文提出了一种基于强化学习的广告策略，通过设计一个新型的深度 Q 网络结构，可以连续更新其广告策略，在推荐列表中插入广告或不插入广告，并选择最优广告和最佳插入位置，使得推荐广告效果显著提升。

Sep, 2019

RecoGym：在线广告推荐问题的强化学习环境

介绍了 RecoGym，一个基于强化学习的环境，旨在解决基于历史数据的监督学习建模在在线实践应用中缺乏表现优异的问题。通过模拟用户与产品之间的交互信息，有效地提高了推荐系统的实时性和准确性。

Aug, 2018

自监督强化学习用于推荐系统

本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足，为仍处于离线状态的推荐者提供强大的梯度信号支持，其中包括两个输出层；一个用于自我监督，另一个用于强化学习，从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。

Jun, 2020

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

基于 LLM 的推荐系统环境

通过利用大型语言模型（LLMs）模拟人类行为，本研究提出了一个综合框架，用于训练基于强化学习（RL）的推荐系统，并提供了深入的消融研究，通过电影和书籍推荐实验证明了其有效性。

Jun, 2024