通过最优传输从观察中进行模仿学习

Oct, 2023

通过最优传输从观察中进行模仿学习

Imitation Learning from Observation through Optimal Transport

Wei-Di Chang, Scott Fujimoto, David Meger, Gregory Dudek

TL;DR实时观察下的模仿学习 (ILfO) 中，利用最优传输来生成奖励函数，通过状态轨迹的 Wasserstein 距离衡量学习者和专家之间的差异，无需学习模型或对抗学习，可以与任何强化学习算法集成，并适用于 ILfO，能在多个连续控制任务中超越现有方法，在单个专家轨迹无动作观测的情况下实现专家级性能。

Abstract

imitation learning from observation (ILfO) is a setting in which a learner tries to imitate the behavior of an expert, using only observational data and without the direct guidance of demonstrated actions. In this paper, we re-examine the use of →

imitation learning from observation optimal transport wasserstein distance reward function continuous control tasks

发现论文，激发创造

基于观测的离策略模仿学习

本文提出了一个基于观察学习的学习方法，包括分布匹配、离线策略学习和倒置动作模型，能够在性能和样本效率上与最先进的方法相媲美。

Feb, 2021

基于引导对比学习的观察模仿

本文提出了基于视觉演示的学习控制策略的一种 IfO 算法，名为 BootIfOL，该算法旨在学习一种从智能体轨迹到目标轨迹的距离度量方式，通过对比学习训练出智能体控制策略，实验结果表明该算法可以在有限的演示轨迹上训练出有效的策略。

Feb, 2023

基于观测的可证明高效仿真学习

设计了一种新的模型无关算法用于能够从观察中学习的模仿学习，可以在大规模的马尔可夫决策过程中学习得到一种近似最优的策略，具有多项式样的效率。

May, 2019

基于归一化流的观测式模仿学习 (IL-flOw)

本论文介绍了一种基于状态观测的逆强化学习算法 IL-flOw，其将奖励建模与策略学习解耦，并利用深度密度估计方法生成奖励信号，避免了对抗训练方法的不稳定性问题。通过使用状态转移概率密度作为正向强化学习的奖励信号，实验结果展示了在大规模机器人控制任务上的优秀表现。

May, 2022

通过转换模型不一致性学习观测到的模仿

本文提出了一种利用中间策略来训练学习者的一种方法，该中间策略可以近似地执行专家的策略，以便用于不同环境下的模仿学习，并在 MuJoCo 运动任务中取得了良好的结果。

Apr, 2022

基于观察的模仿学习与自动折扣调度

通过自动折扣调度的机制适应性地改变强化学习的折扣系数，我们提出了一种新颖的观察学习框架，使得代理能够在掌握较早行为之后再逐步转向后续行为，并通过在九个 Meta-World 任务上的实验证明该方法在所有任务中明显优于现有方法。

Oct, 2023

关于通过最优转运在模仿学习中结合专家示范的研究

使用多边际最优传输距离的替代方法，实现了在 OT 意义下多个和多样化状态轨迹的组合，提供了更合理的演示几何平均值，从而使代理从多个专家中学习，并在 OpenAI Gym 控制环境中进行了效率分析，表明标准方法并不总是最优的。

Jul, 2023

意图对齐：离线优化传输的模仿学习

通过从环境中观察专家，尽管没有明确的奖励或动作标签，但模仿智能体仍然可以学习所需行为。借助于最优传输距离的 AILOT 方法，在与数据中蕴含成对的空间距离的意图形式中对状态进行特殊表示，定义了内在奖励函数，改善了其他线下强化学习算法在稀疏奖励任务中的性能，并超过了 D4RL 基准的最新线下模仿学习算法。

Feb, 2024

基于策略的样本高效观测模仿学习

本文提出了 SEILO，这是一种新颖的 ILO 的样本有效的 on-policy 算法，结合了标准的对抗性模仿学习和逆动力学建模，通过此方法能够使智能体从对手过程和行为克隆损失中接收反馈，我们实证表明，相比于其他现有的 on-policy ILO 和 ILD 方法，我们所提出的算法需要更少的与环境的交互才能实现专家绩效。

Jun, 2023

从观测中学习模仿最新进展

本文为观察式模仿学习提供了文献综述，并指出了一些开放性研究问题和未来可行性工作。

May, 2019