带有对抗训练的模型强化学习在在线推荐中的应用

Nov, 2019

带有对抗训练的模型强化学习在在线推荐中的应用

Model-Based Reinforcement Learning with Adversarial Training for Online Recommendation

Xueying Bai, Jian Guan, Hongning Wang

TL;DR本篇论文提出了一种基于模型的强化学习解决方案，使用生成对抗网络对用户代理交互进行建模，实现了离线策略学习。理论分析和实证评估证明了该解决方案在从离线和生成数据学习策略方面的有效性。

Abstract

reinforcement learning is well suited for optimizing policies of recommender systems. Current solutions mostly focus on model-free approaches, which require frequent interactions with the real environment, and thus are expensive in model learning. →

reinforcement learning model-based policy learning generative adversarial network offline evaluation

发现论文，激发创造

基于对抗生成网络的强化学习推荐系统用户模型

该论文提出了一种新颖的基于生成对抗网络的强化学习框架，以解决在推荐系统中无法明确定义环境奖励函数和动态环境的应用挑战，使用该框架开发了一个用户模型作为仿真环境，开发了一种新颖的 Cascading DQN 算法来获得一个组合推荐策略，实验证明这个生成对抗用户模型可以更好地解释用户行为，并且基于该模型的 RL 策略能够为用户带来更好的长期回报和系统的点击率。

Dec, 2018

一个通用的离线强化学习框架用于交互推荐

该论文研究了在在线环境中无需探索的情况下，从已记录的反馈中学习互动推荐系统的问题，并提出了一种通用的离线强化学习框架用于推荐，可以通过最大化累积用户奖励来解决问题。为了更有效地进行离线学习，我们提出了五种方法来最小化记录策略和推荐策略之间的分布不匹配：支持约束、监督正则化、策略约束、双重约束和奖励外推。我们在两个公开的现实世界数据集上进行了广泛的实验，证明了所提出的方法在推荐方面相对于现有的监督学习和强化学习方法具有优越的性能。

Oct, 2023

离线强化学习在推荐系统中的机遇与挑战

该研究综述了利用离线强化学习应对推荐系统中数据效率低下的问题，着重介绍了现有文献在该领域的研究成果，同时强调了该领域面临的挑战、机遇和未来研究方向。

Aug, 2023

基于模型的离线策略优化与对抗网络

使用对抗学习建立具有更好泛化性能的转移模型，能够更准确地量化模型不确定性，并在广泛研究的离线强化学习基准测试中胜过现有最先进的对照方法。

Sep, 2023

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

自监督强化学习用于推荐系统

本文中提出了一种自我监督强化学习算法来弥补监督式推荐算法的不足，为仍处于离线状态的推荐者提供强大的梯度信号支持，其中包括两个输出层；一个用于自我监督，另一个用于强化学习，从而实现顾虑到长期用户参与度以及多种用户 - 项目交互等因素的推荐任务。

Jun, 2020

基于深度强化学习的列表推荐

本文提出一种通过模型驱动的增强学习方法来不断优化推荐策略的推荐系统，将用户与推荐系统之间的交互建模为马尔可夫决策过程，并通过在线用户 - 代理交互环境模拟器来预训练和评估模型参数，进一步提出了一种将列表式推荐纳入推荐系统的实验方法，并在真实世界的电子商务数据集上验证了该方法的有效性。

Dec, 2017

RecoGym：在线广告推荐问题的强化学习环境

介绍了 RecoGym，一个基于强化学习的环境，旨在解决基于历史数据的监督学习建模在在线实践应用中缺乏表现优异的问题。通过模拟用户与产品之间的交互信息，有效地提高了推荐系统的实时性和准确性。

Aug, 2018

优化生产投标策略的离线强化学习

通过离线强化学习从真实数据中学习，我们提出了一种通用方法来优化生产环境中的竞价策略，这种方法可以用于优化任何可微分的基础策略，并且只需要由基础策略自身生成的数据。我们使用混合代理架构将任意基础策略与深度神经网络结合起来，在训练后仅部署优化的基础策略参数，而神经网络部分被丢弃。我们证明这样的架构在模拟和生产竞价环境中都能取得统计上显著的性能提升。我们的方法不会产生额外的基础设施、安全或可解释性成本，因为它直接优化现有生产流程的参数，而不是用类似神经网络的黑箱模型替换它们。

Oct, 2023

基于强化学习的推荐系统中环境模拟的研究

本文介绍了一种基于生成对抗网络的用户模拟器，可以用于预先训练和评估新的基于强化学习的推荐算法，并使用真实世界的电子商务数据进行实验验证。

Jun, 2019