基于状态对齐的模仿学习
本文介绍了一种新的基于状态的模仿学习算法,借助最近的对抗模仿学习方法,通过将总体优化目标分解为两个子问题并迭代地解决这些子问题,解决了专家和模仿者 MDPs 之间的过渡动力学不匹配问题。作者还通过 OpenAI Gym 的 MuJoCo 运动任务构造了几个有趣的 Markov 决策过程,分析表明该算法在存在过渡动力学不匹配现象时特别有效,而基线 IL 方法则会导致性能下降。
Feb, 2020
我们提出了一种新颖的鲁棒模仿学习方法,通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境,通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性,从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能,并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。
Oct, 2023
本文提出一种基于张量的模型,用于推断专家状态序列中未被观察到的动作,通过混合强化学习和模仿学习来优化智能体的策略,实证结果表明这种混合方法比一般的深度神经网络模型更具优势,并且在专家状态序列中表现出了抗扰动的特性。
Mar, 2019
本篇研究针对专家行为与训练代理之间的差异,提出了一种基于无配对无对齐的轨迹,以及循环一致性限制的框架,来学习对应关系以解决领域差异的问题,并通过实验证明了该方法的有效性。
May, 2021
研究了在复杂领域中,采用反向动力学模型辅助的状态模仿学习方法,并将其与传统的专家演示方法相比,证明了该方法在不同动力学、形态、物体的模拟学习中表现出了良好的优越性能。
Apr, 2020
介绍了一种领域自适应模仿学习(DAIL)问题的形式化表达,提出了一种两步方法:对齐和适应,通过无监督的 MDP 对齐算法(GAMA)执行对齐步骤并利用对应关系在不需要经过环境交互的情况下在不同领域中实现任务零次模仿。
Sep, 2019
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。
Apr, 2022
本文提出了一种利用中间策略来训练学习者的一种方法,该中间策略可以近似地执行专家的策略,以便用于不同环境下的模仿学习,并在 MuJoCo 运动任务中取得了良好的结果。
Apr, 2022
本研究提出了一种基于自监督表示学习的对抗性模仿学习方法,用于学习具有抗扭曲性和时间预测性的状态和动作表示,以提高样本效率,并在 MuJoCo 的 100 个专家状态 - 动作对设置中相对于现有方法表现出 39%的改进。
Mar, 2023