多任务分层对抗逆强化学习

ICMLMay, 2023

Multi-task Hierarchical Adversarial Inverse Reinforcement Learning

Jiayu Chen, Dipesh Tamboli, Tian Lan, Vaneet Aggarwal

TL;DRMulti-task Hierarchical Adversarial Inverse Reinforcement Learning (MH-AIRL) is developed to learn hierarchically-structured multi-task policies that are more beneficial for compositional tasks with long horizons and has higher expert data efficiency; MH-AIRL synthesizes context-based multi-task learning, AIRL (an IL approach), and hierarchical policy learning, and evaluations on challenging multi-task settings demonstrate superior performance and transferability of the multi-task policies learned with MH-AIRL compared to SOTA MIL baselines.

Abstract

multi-task imitation learning (MIL) aims to train a policy capable of performing a distribution of tasks based on multi-task expert demonstrations, which is essential for general-purpose robots. Existing MIL algorithms suffer from low →

multi-task imitation learning hierarchical adversarial inverse reinforcement learning policy learning data efficiency compositional tasks

发现论文，激发创造

基于上下文的多任务分层逆强化学习算法

提出了一种多任务分层对抗逆强化学习方法 (MH-AIRL), 用于训练具有分层结构的多任务策略，以提高复合任务的表现，增强对复杂、长周期任务的训练效率，降低数据需求以及提高对专家演示的利用效率。实验证明，与现有算法相比，MH-AIRL 表现更优。

Oct, 2022

多智能体对抗逆强化学习

本文提出了一种新的多智能体逆强化学习框架（MA-AIRL），有效地解决了高维空间和未知动态的马尔科夫博弈问题，并展示了在策略模仿方面，MA-AIRL 显著优于现有方法。

Jul, 2019

双元元模仿学习传输等级结构

提出了一种名为 Dual Meta Imitation Learning (DMIL) 的层次元学习方法，使用模型无关元学习迭代元学习高级网络和子技能，并将来自每个子技能的状态操作对的似然作为高级网络适应的监督，理论上证明了 DMIL 的收敛性，并实现了在 Meta-world benchmark 中最先进的少量样本模仿学习性能和在长时间周期任务执行的 Kitchen 环境中有竞争力的结果。

Jan, 2022

HIRL: 带有延迟奖励的长时程任务的层次逆强化学习

提出了一种称为 “分层逆强化学习（HIRL）” 的框架，用于从展示中学习子任务结构，并使用得出的结构来学习局部奖励函数以及处理任何全局依赖关系，实验结果表明 HIRL 策略的成功率比传统方法高，并且更容易适应环境噪声和抵御干扰。

Apr, 2016

重新思考对抗性逆强化学习：从策略模仿和可转移奖励恢复的角度

在这篇研究论文中，我们重新思考了对抗性逆向强化学习 (AIRL) 的两个不同方面：策略模仿和可转移奖励恢复。我们使用软 actor-critic (SAC) 在策略优化过程中替代了 AIRL 中的内置算法，以增强样本效率，并且可识别 AIRL 相对于 SAC 具有马尔可夫决策过程 (MDP) 模型。这确实显着提高了策略模仿，但不幸的是对可转移奖励恢复带来了一些不利影响。为了解决这个问题，我们指出 SAC 算法本身无法在 AIRL 训练过程中全面解藕奖励函数，并且提出了一个混合框架 PPO-AIRL + SAC，以实现满意的转移效果。此外，我们还从代数理论的角度分析了环境从中提取解藕奖励的能力。

Mar, 2024

基于聚合数据的对抗性模仿学习

通过使用聚合数据上的对抗性模仿学习，我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法，可以同时学习非线性奖励函数和相关的最优策略，并且生成多样化的行为来匹配专家数据的分布。

Nov, 2023

深度自适应多目的逆强化学习

本文提出一种深度逆强化学习框架，使用狄利克雷过程的工具，通过无标签专家示范学习先前未知的多个非线性奖励函数，同时考虑奖励函数的复杂性和数量。通过专家多重意图的条件最大熵原理，我们将其建模为潜在意图分布的混合，并提出两种算法来估计深度奖励网络的参数和专家意图的数量。

Jul, 2021

通过对抗逆强化学习学习鲁棒奖励

本文提出了一种新颖的反向强化学习算法，基于对抗奖励学习框架，该算法能够实现自动奖励学习并在大规模高维问题中具有很强的适用性和可扩展性，提高了强化学习的性能和应用范围。

Oct, 2017

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017