通过最小化逆动力学不一致性从观察中进行模仿学习

Oct, 2019

通过最小化逆动力学不一致性从观察中进行模仿学习

Imitation Learning from Observations by Minimizing Inverse Dynamics Disagreement

Chao Yang, Xiaojian Ma, Wenbing Huang, Fuchun Sun, Huaping Liu...

TL;DR本文研究了利用只有状态的演示进行模仿学习的观察学习（LfO）。通过理论和实践的角度，我们首先证明了如果遵循 GAIL 的建模方法，LfD 和 LfO 之间的差距实际上在于模仿者和专家之间的逆动力学模型的分歧。我们提出了 Inverse-Dynamics-Disagreement-Minimization（IDDM）方法，通过进一步缩小与 LfD 之间的差距来增强传统的 LfO 方法。挑战性基准测试的实证结果表明，我们的方法相对于其他 LfO 方法获得了一致的改进。

Abstract

This paper studies learning from observations (LfO) for imitation learning with access to state-only demonstrations. In contrast to Learni

learning from observations imitation learning state-only demonstrations inverse-dynamics-disagreement-minimization lfd

发现论文，激发创造

基于观测的离策略模仿学习

本文提出了一个基于观察学习的学习方法，包括分布匹配、离线策略学习和倒置动作模型，能够在性能和样本效率上与最先进的方法相媲美。

Feb, 2021

基于观察数据的生成对抗模仿

本文提出了一种基于生成对抗网络的从观察中模仿学习方法（GAIfO），它可以在没有行动信息的情况下直接从状态演示中学习，进行了两种不同设置的实验证明它在高维模拟环境中优于现有的直接从状态演示方法。

Jul, 2018

基于稳态分布校正估计的离线观测学习 - LobsDICE

该论文探究了在缺乏专家行为数据的情况下，通过学习观察结果来模拟专家行为的问题，并提出了一种基于离线学习的算法 LobsDICE，该算法通过优化稳定分布来实现模仿专家策略，并在一系列在线学习任务中表现出色。

Feb, 2022

基于观测的可证明高效仿真学习

设计了一种新的模型无关算法用于能够从观察中学习的模仿学习，可以在大规模的马尔可夫决策过程中学习得到一种近似最优的策略，具有多项式样的效率。

May, 2019

通过最优传输从观察中进行模仿学习

实时观察下的模仿学习 (ILfO) 中，利用最优传输来生成奖励函数，通过状态轨迹的 Wasserstein 距离衡量学习者和专家之间的差异，无需学习模型或对抗学习，可以与任何强化学习算法集成，并适用于 ILfO，能在多个连续控制任务中超越现有方法，在单个专家轨迹无动作观测的情况下实现专家级性能。

Oct, 2023

基于策略的样本高效观测模仿学习

本文提出了 SEILO，这是一种新颖的 ILO 的样本有效的 on-policy 算法，结合了标准的对抗性模仿学习和逆动力学建模，通过此方法能够使智能体从对手过程和行为克隆损失中接收反馈，我们实证表明，相比于其他现有的 on-policy ILO 和 ILD 方法，我们所提出的算法需要更少的与环境的交互才能实现专家绩效。

Jun, 2023

基于观察的模仿学习与自动折扣调度

通过自动折扣调度的机制适应性地改变强化学习的折扣系数，我们提出了一种新颖的观察学习框架，使得代理能够在掌握较早行为之后再逐步转向后续行为，并通过在九个 Meta-World 任务上的实验证明该方法在所有任务中明显优于现有方法。

Oct, 2023

基于引导对比学习的观察模仿

本文提出了基于视觉演示的学习控制策略的一种 IfO 算法，名为 BootIfOL，该算法旨在学习一种从智能体轨迹到目标轨迹的距离度量方式，通过对比学习训练出智能体控制策略，实验结果表明该算法可以在有限的演示轨迹上训练出有效的策略。

Feb, 2023

通过转换模型不一致性学习观测到的模仿

本文提出了一种利用中间策略来训练学习者的一种方法，该中间策略可以近似地执行专家的策略，以便用于不同环境下的模仿学习，并在 MuJoCo 运动任务中取得了良好的结果。

Apr, 2022

基于原始 Wasserstein 状态占有匹配的离线观察仿真

通过使用观察结果进行离线学习，我们提出一种新的方法称为 Primal Wasserstein DICE，通过最小化原始 Wasserstein 距离来改进分布校正估计，并在多个测试平台上进行实证评估。

Nov, 2023