使用逆强化学习中的结构图案进行奖励学习

Sep, 2022

使用逆强化学习中的结构图案进行奖励学习

Reward Learning using Structural Motifs in Inverse Reinforcement Learning

Raeid Saqur

TL;DR本文研究了当前 IRL 方法在长期和复杂的顺序任务中学习代理奖励函数的无效性，并提出了一种新的 IRL 方法 SMIRL，该方法将任务结构化为有限状态自动机，然后使用结构性动机来解决 IRL 问题。通过离散和高维度连续环境的测试实验，我们证明了该方法的有效性和高效性，并表明其在具有组合奖励函数的任务中仍然表现良好。

Abstract

The inverse reinforcement learning (\textit{IRL}) problem has seen rapid evolution in the past few years, with important applications in domains like robotics, cognition, and health. In this work, we explore the inefficacy of current IRL methods in learning an agent's →

inverse reinforcement learning smirl reward function sequential tasks structural motifs

发现论文，激发创造

基于结构风险最小化的未知奖励模型的逆强化学习

通过引入结构风险最小化方法，本文解决了逆强化学习模型选择中的权衡问题，以估计误差和模型复杂度为目标，选择最佳的奖励函数类别。具体实施的结构风险最小化包括估计策略梯度和建立模型惩罚的 Rademacher 复杂度的上界。通过模拟实验验证了该方案的性能和效率。

Dec, 2023

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

逆强化学习的课程子目标

本研究提出了一种基于课程子目标的反向强化学习框架，通过动态选择子目标来引导智能体的学习，在 D4RL 和自动驾驶基准测试中实现了优于现有方法的结果与更好的可解释性。

Jun, 2023

逆向强化学习的自动特征选择

逆向强化学习是一种从专家示范中学习奖励函数的模仿学习方法，通过使用线性组合特征表示奖励，借助多项式基函数形成特征候选集来解决连续状态空间中特征选择的问题，并利用轨迹概率与特征期望之间的关联对特征进行选择，实验表明该方法能够恢复捕获专家策略的奖励函数，适用于越来越复杂的非线性控制任务。

Mar, 2024

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

基于状态边际匹配的逆强化学习

本文提出了一种基于 f-divergence 的算法 f-IRL，通过学习奖励函数来匹配专家状态分布以优化控制任务的样本效率和行为迁移能力，并在各种 IRL 基准测试中超越了对手仿真学习方法。

Nov, 2020

从摘要数据中进行反向强化学习

该论文介绍了一种新的逆向强化学习方法，该方法不需要对数据进行特定的简化假设，可以在不确定简化函数的情况下进行推理和评估参数不确定性。

Mar, 2017

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成 MDP 和转移学习任务上都得到了改进。

Apr, 2016

具有次优专家的逆强化学习

给定一个包含多个次优专家行为的问题，我们将逆向强化学习（IRL）方法扩展到了这种情况，研究了与给定专家集兼容的奖励函数的理论性质，并分析了使用生成模型估计可行奖励集的统计复杂性，得到了一个具有极小极大最优性的均匀采样算法。

Jan, 2024