对抗性批量逆强化学习：从不完美的演示中学习奖励，用于交互式推荐

Oct, 2023

对抗性批量逆强化学习：从不完美的演示中学习奖励，用于交互式推荐

Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from Imperfect Demonstration for Interactive Recommendation

PDF

Jialin Liu, Xinyan Su, Zeyu He, Xiangyu Zhao, Jun Li

TL;DR在本研究中，我们提出了一种新颖的批量逆向强化学习模型，通过使用折扣的稳态分布修正结合学习奖励 (LTR) 和推荐代理评估，同时满足组合要求，并通过贝尔曼转化和 KL 正则化来改进效果和效率。

Abstract

rewards serve as a measure of user satisfaction and act as a limiting factor in interactive recommender systems. In this research, we focus on the problem of →

rewards interactive recommender systems learning to reward reinforcement learning batch inverse reinforcement learning

发现论文，激发创造

生成对抗奖励学习用于泛化行为倾向推断

提出了一种基于生成式逆强化学习的用户行为偏好建模方法，该方法可以自动学习用户的行为奖励函数，并通过辨别式演员 - 评论家网络和 Wasserstein 生成对抗网络进行建模和解释，实验证明该方法在交通信号控制、在线推荐系统和注视路径预测等场景下优于现有的方法。

May, 2021

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

基于梯度学习器的逆强化学习

本文提出了用于从机器人的多次策略中恢复策略目标的新算法。该算法基于观察所观察到的代理程序沿梯度方向更新其策略参数的假设。

Jul, 2020

面向使用人类反馈进行离线策略排序的强化学习

本文提出了一种新的离线值排名 (VR) 算法，可以在统一的期望最大化 (EM) 框架中同时最大化用户的长期回报和优化排名度量，以提高样本效率。理论和实证研究表明，EM 过程指导了学习策略，从而在没有任何在线交互的情况下享受未来回报和排名度量的优势。广泛的离线和在线实验证明了我们方法的有效性。

Jan, 2024

对话生成：从模仿学习到逆强化学习

通过采用敌对模仿学习和敌对逆强化学习的方法，提出了一种新的对话生成奖励模型，可用于更精确地指导生成器训练，实验结果表明其有效性。

Dec, 2018

强化学习增强的对比模型用于顺序推荐

通过提出一种名为模型增强对比强化学习（MCRL）的新型强化学习推荐器，我们解决了离线数据集的稀疏性以及负反馈无法获取的问题，并通过对比学习来优化奖励函数和状态转移函数，实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。

Oct, 2023

一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架

这篇论文介绍了一个针对离线奖励学习的新型线性规划（LP）框架，通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数，并在保持计算可行性和样本效率的同时，提供可证明的样本效率优化保证。

May, 2024

通过自监督奖励回归学习低效演示

本文提出了一种新的方法通过子优示范来合成优化参数化的数据来训练理想的奖励函数，从而克服了旧方法在使用子优示范时的一些限制，实现了更好的性能。

Oct, 2020

带有对抗训练的模型强化学习在在线推荐中的应用

本篇论文提出了一种基于模型的强化学习解决方案，使用生成对抗网络对用户代理交互进行建模，实现了离线策略学习。理论分析和实证评估证明了该解决方案在从离线和生成数据学习策略方面的有效性。

Nov, 2019

通过观察从反强化学习中超越次优演示

本文提出了一种基于 Trajectory-ranked Reward EXtrapolation (T-REX) 算法的强化学习奖励学习方法，该方法可以从一系列排名不佳的示范中开创性地推断出高质量的奖励函数，并结合深度强化学习方法，在多个 Atari 游戏任务上实现了超过最佳演示 2 倍以上的优异表现。

Apr, 2019