本文提出了 SEILO,这是一种新颖的 ILO 的样本有效的 on-policy 算法,结合了标准的对抗性模仿学习和逆动力学建模,通过此方法能够使智能体从对手过程和行为克隆损失中接收反馈,我们实证表明,相比于其他现有的 on-policy ILO 和 ILD 方法,我们所提出的算法需要更少的与环境的交互才能实现专家绩效。
Jun, 2023
本文提出了一个基于观察学习的学习方法,包括分布匹配、离线策略学习和倒置动作模型,能够在性能和样本效率上与最先进的方法相媲美。
Feb, 2021
实时观察下的模仿学习 (ILfO) 中,利用最优传输来生成奖励函数,通过状态轨迹的 Wasserstein 距离衡量学习者和专家之间的差异,无需学习模型或对抗学习,可以与任何强化学习算法集成,并适用于 ILfO,能在多个连续控制任务中超越现有方法,在单个专家轨迹无动作观测的情况下实现专家级性能。
Oct, 2023
通过自动折扣调度的机制适应性地改变强化学习的折扣系数,我们提出了一种新颖的观察学习框架,使得代理能够在掌握较早行为之后再逐步转向后续行为,并通过在九个 Meta-World 任务上的实验证明该方法在所有任务中明显优于现有方法。
本文提出了基于视觉演示的学习控制策略的一种 IfO 算法,名为 BootIfOL,该算法旨在学习一种从智能体轨迹到目标轨迹的距离度量方式,通过对比学习训练出智能体控制策略,实验结果表明该算法可以在有限的演示轨迹上训练出有效的策略。
Feb, 2023
本论文介绍了一种基于状态观测的逆强化学习算法 IL-flOw,其将奖励建模与策略学习解耦,并利用深度密度估计方法生成奖励信号,避免了对抗训练方法的不稳定性问题。通过使用状态转移概率密度作为正向强化学习的奖励信号,实验结果展示了在大规模机器人控制任务上的优秀表现。
May, 2022
本文提出了一种利用中间策略来训练学习者的一种方法,该中间策略可以近似地执行专家的策略,以便用于不同环境下的模仿学习,并在 MuJoCo 运动任务中取得了良好的结果。
Apr, 2022
本文提出了一种基于生成对抗网络的从观察中模仿学习方法(GAIfO),它可以在没有行动信息的情况下直接从状态演示中学习,进行了两种不同设置的实验证明它在高维模拟环境中优于现有的直接从状态演示方法。
Jul, 2018
本文研究了利用只有状态的演示进行模仿学习的观察学习(LfO)。通过理论和实践的角度,我们首先证明了如果遵循 GAIL 的建模方法,LfD 和 LfO 之间的差距实际上在于模仿者和专家之间的逆动力学模型的分歧。我们提出了 Inverse-Dynamics-Disagreement-Minimization(IDDM)方法,通过进一步缩小与 LfD 之间的差距来增强传统的 LfO 方法。挑战性基准测试的实证结果表明,我们的方法相对于其他 LfO 方法获得了一致的改进。
Oct, 2019
本文介绍了一种新的基于状态的模仿学习算法,借助最近的对抗模仿学习方法,通过将总体优化目标分解为两个子问题并迭代地解决这些子问题,解决了专家和模仿者 MDPs 之间的过渡动力学不匹配问题。作者还通过 OpenAI Gym 的 MuJoCo 运动任务构造了几个有趣的 Markov 决策过程,分析表明该算法在存在过渡动力学不匹配现象时特别有效,而基线 IL 方法则会导致性能下降。
Feb, 2020