生成对抗奖励学习用于泛化行为倾向推断

May, 2021

生成对抗奖励学习用于泛化行为倾向推断

Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference

Xiaocong Chen, Lina Yao, Xianzhi Wang, Aixin Sun, Wenjie Zhang...

TL;DR提出了一种基于生成式逆强化学习的用户行为偏好建模方法，该方法可以自动学习用户的行为奖励函数，并通过辨别式演员 - 评论家网络和 Wasserstein 生成对抗网络进行建模和解释，实验证明该方法在交通信号控制、在线推荐系统和注视路径预测等场景下优于现有的方法。

Abstract

Recent advances in reinforcement learning have inspired increasing interest in learning user modeling adaptively through dynamic interactions, e.g., in →

reinforcement learning user modeling generative inverse reinforcement learning actor-critic network online recommender systems

发现论文，激发创造

基于对抗生成网络的强化学习推荐系统用户模型

该论文提出了一种新颖的基于生成对抗网络的强化学习框架，以解决在推荐系统中无法明确定义环境奖励函数和动态环境的应用挑战，使用该框架开发了一个用户模型作为仿真环境，开发了一种新颖的 Cascading DQN 算法来获得一个组合推荐策略，实验证明这个生成对抗用户模型可以更好地解释用户行为，并且基于该模型的 RL 策略能够为用户带来更好的长期回报和系统的点击率。

Dec, 2018

对抗性批量逆强化学习：从不完美的演示中学习奖励，用于交互式推荐

在本研究中，我们提出了一种新颖的批量逆向强化学习模型，通过使用折扣的稳态分布修正结合学习奖励 (LTR) 和推荐代理评估，同时满足组合要求，并通过贝尔曼转化和 KL 正则化来改进效果和效率。

Oct, 2023

带有对抗训练的模型强化学习在在线推荐中的应用

本篇论文提出了一种基于模型的强化学习解决方案，使用生成对抗网络对用户代理交互进行建模，实现了离线策略学习。理论分析和实证评估证明了该解决方案在从离线和生成数据学习策略方面的有效性。

Nov, 2019

一种用于基于偏好奖励学习的泛化获取函数

优化查询方法在学习奖励函数上的表现优于信息增益方法。

Mar, 2024

基于强化学习的推荐系统中环境模拟的研究

本文介绍了一种基于生成对抗网络的用户模拟器，可以用于预先训练和评估新的基于强化学习的推荐算法，并使用真实世界的电子商务数据进行实验验证。

Jun, 2019

对话生成：从模仿学习到逆强化学习

通过采用敌对模仿学习和敌对逆强化学习的方法，提出了一种新的对话生成奖励模型，可用于更精确地指导生成器训练，实验结果表明其有效性。

Dec, 2018

基于 GAN 的内在探索，用于高效样本的强化学习

在这篇研究中，我们提出了基于生成对抗网络的内在奖励模块来解决强化学习中有效探索的问题，该模块学习所观察到状态的分布并发送内在奖励以引导智能体探索未被探索过的状态，我们通过对无奖励和稀疏奖励的游戏场景实验表明了该方法的有效性。

Jun, 2022

基于梯度学习器的逆强化学习

本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。

Jul, 2020

基于主动偏好的高斯过程回归用于奖励学习

本文介绍了一种基于用户反馈的偏好学习方法，利用高斯过程 (GP) 对奖励函数进行建模，在不增加结构限制并避免数据不足和刚性的问题的情况下，仅通过比较轨迹即可有效学习机器人任务的表达性奖励函数。

May, 2020

高效探索的隐式生成模型

本文介绍了一种基于模型不确定性估计的机制，通过引入基于贝叶斯不确定性的内在奖励来提高强化学习中的探索效率，并将隐式的生成建模方法用于训练。实验结果表明，与其他探索方法相比，该算法在提高数据效率方面表现出色。

Nov, 2019