基于距离 - 排序的序贯奖励学习的次优示教的逆强化学习

Oct, 2023

基于距离 - 排序的序贯奖励学习的次优示教的逆强化学习

Distance-rank Aware Sequential Reward Learning for Inverse Reinforcement Learning with Sub-optimal Demonstrations

Lu Li, Yuxin Pan, Ruobing Chen, Jie Liu, Zilin Wang...

TL;DR我们引入了 DRASRL 框架，该框架考虑了路径排序和路径之间的差异度，通过测量轨迹生成的策略之间的距离来消除奖励的歧义，同时利用对比学习技术来推断表示空间中的嵌入，结合成对排序损失函数将排序信息纳入到潜在特征中，并采用 Transformer 架构来捕捉潜在空间中的上下文依赖，从而实现更准确的奖励估计。经过广泛的实验，我们的 DRASRL 框架在性能上显著优于先前的 SOTA 方法。

Abstract

inverse reinforcement learning (IRL) aims to explicitly infer an underlying reward function based on collected expert demonstrations. Considering that obtaining expert demonstrations can be costly, the focus of c

inverse reinforcement learning reward function trajectory ranking ambiguity distance-rank aware sequential reward learning transformer architecture

发现论文，激发创造

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

逆强化学习的课程子目标

本研究提出了一种基于课程子目标的反向强化学习框架，通过动态选择子目标来引导智能体的学习，在 D4RL 和自动驾驶基准测试中实现了优于现有方法的结果与更好的可解释性。

Jun, 2023

通过正则化逆强化学习实现奖励可转移性

逆强化学习旨在从专家示范中推断出奖励，但奖励与最优策略不唯一，本文提出主角度作为衡量转移规律相似性和差异性的更精细度量，建立了两个关键结果：1）当学习来自至少两个转移规律明显不同的专家时，对任何转移规律的可转移性提供了足够条件；2）当从单个专家学习时，对转移规律的局部变化的可转移性提供了足够条件，并提供了概率近似正确（PAC）算法和端到端分析，用于从多个专家的示范中学习可转移的奖励。

Jun, 2024

通过观察从反强化学习中超越次优演示

本文提出了一种基于 Trajectory-ranked Reward EXtrapolation (T-REX) 算法的强化学习奖励学习方法，该方法可以从一系列排名不佳的示范中开创性地推断出高质量的奖励函数，并结合深度强化学习方法，在多个 Atari 游戏任务上实现了超过最佳演示 2 倍以上的优异表现。

Apr, 2019

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

具有次优专家的逆强化学习

给定一个包含多个次优专家行为的问题，我们将逆向强化学习（IRL）方法扩展到了这种情况，研究了与给定专家集兼容的奖励函数的理论性质，并分析了使用生成模型估计可行奖励集的统计复杂性，得到了一个具有极小极大最优性的均匀采样算法。

Jan, 2024

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成 MDP 和转移学习任务上都得到了改进。

Apr, 2016

上下文层次逆强化学习

本论文提出了一种新的逆向强化学习（IRL）方法 ——Context Hierarchy IRL（CHIRL），可从专家的演示中学习复杂行为的奖励函数，通过逐层建立上下文图来表达上下文结构，并利用相应的模块深度神经网络表示奖励函数，可以有效解决 IRL 存在的问题，尤其在具有复杂奖励函数的任务中，表现出极高的扩展性和表现力。

Feb, 2022

基于聚合数据的对抗性模仿学习

通过使用聚合数据上的对抗性模仿学习，我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法，可以同时学习非线性奖励函数和相关的最优策略，并且生成多样化的行为来匹配专家数据的分布。

Nov, 2023

通过对抗逆强化学习学习鲁棒奖励

本文提出了一种新颖的反向强化学习算法，基于对抗奖励学习框架，该算法能够实现自动奖励学习并在大规模高维问题中具有很强的适用性和可扩展性，提高了强化学习的性能和应用范围。

Oct, 2017