基于上下文的多任务分层逆强化学习算法
Multi-task Hierarchical Adversarial Inverse Reinforcement Learning (MH-AIRL) is developed to learn hierarchically-structured multi-task policies that are more beneficial for compositional tasks with long horizons and has higher expert data efficiency; MH-AIRL synthesizes context-based multi-task learning, AIRL (an IL approach), and hierarchical policy learning, and evaluations on challenging multi-task settings demonstrate superior performance and transferability of the multi-task policies learned with MH-AIRL compared to SOTA MIL baselines.
May, 2023
本文提出了一种新的多智能体逆强化学习框架(MA-AIRL),有效地解决了高维空间和未知动态的马尔科夫博弈问题,并展示了在策略模仿方面,MA-AIRL 显著优于现有方法。
Jul, 2019
提出了一种称为 “分层逆强化学习(HIRL)” 的框架,用于从展示中学习子任务结构,并使用得出的结构来学习局部奖励函数以及处理任何全局依赖关系,实验结果表明 HIRL 策略的成功率比传统方法高,并且更容易适应环境噪声和抵御干扰。
Apr, 2016
提出了一种名为 Dual Meta Imitation Learning (DMIL) 的层次元学习方法,使用模型无关元学习迭代元学习高级网络和子技能,并将来自每个子技能的状态操作对的似然作为高级网络适应的监督,理论上证明了 DMIL 的收敛性,并实现了在 Meta-world benchmark 中最先进的少量样本模仿学习性能和在长时间周期任务执行的 Kitchen 环境中有竞争力的结果。
Jan, 2022
本论文提出了一种新的逆向强化学习(IRL)方法 ——Context Hierarchy IRL(CHIRL),可从专家的演示中学习复杂行为的奖励函数,通过逐层建立上下文图来表达上下文结构,并利用相应的模块深度神经网络表示奖励函数,可以有效解决 IRL 存在的问题,尤其在具有复杂奖励函数的任务中,表现出极高的扩展性和表现力。
Feb, 2022
在这篇研究论文中,我们重新思考了对抗性逆向强化学习 (AIRL) 的两个不同方面:策略模仿和可转移奖励恢复。我们使用软 actor-critic (SAC) 在策略优化过程中替代了 AIRL 中的内置算法,以增强样本效率,并且可识别 AIRL 相对于 SAC 具有马尔可夫决策过程 (MDP) 模型。这确实显着提高了策略模仿,但不幸的是对可转移奖励恢复带来了一些不利影响。为了解决这个问题,我们指出 SAC 算法本身无法在 AIRL 训练过程中全面解藕奖励函数,并且提出了一个混合框架 PPO-AIRL + SAC,以实现满意的转移效果。此外,我们还从代数理论的角度分析了环境从中提取解藕奖励的能力。
Mar, 2024
通过使用聚合数据上的对抗性模仿学习,我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法,可以同时学习非线性奖励函数和相关的最优策略,并且生成多样化的行为来匹配专家数据的分布。
Nov, 2023
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。
Apr, 2022
本文提出一种深度逆强化学习框架,使用狄利克雷过程的工具,通过无标签专家示范学习先前未知的多个非线性奖励函数,同时考虑奖励函数的复杂性和数量。通过专家多重意图的条件最大熵原理,我们将其建模为潜在意图分布的混合,并提出两种算法来估计深度奖励网络的参数和专家意图的数量。
Jul, 2021
本文提出了一种新颖的反向强化学习算法,基于对抗奖励学习框架,该算法能够实现自动奖励学习并在大规模高维问题中具有很强的适用性和可扩展性,提高了强化学习的性能和应用范围。
Oct, 2017