视觉稳健对抗性模仿学习与对比学习

Jun, 2024

视觉稳健对抗性模仿学习与对比学习

Visually Robust Adversarial Imitation Learning from Videos with Contrastive Learning

Vittorio Giammarino, James Queeney, Ioannis Ch. Paschalidis

TL;DR我们提出了C-LAIfO，一种计算效率高的算法，设计用于从视频中进行模仿学习，即使在智能体和专家领域之间存在视觉不匹配。我们通过对具有视觉差异的专家视频的模仿问题进行分析，并提出了一种使用对比学习和数据增强进行稳健潜空间估计的解决方案。在提供了视觉稳健潜空间后，我们的算法完全在该空间内使用离策略对抗模仿学习进行模仿。我们进行了全面的消融研究以证明我们的设计选择，并在高维连续机器人任务上对C-LAIfO进行了测试。此外，我们演示了如何将C-LAIfO与其他奖励信号结合起来，以促进在一组具有稀疏奖励的挑战性手部操作任务中的学习。我们的实验表明，与基准方法相比，C-LAIfO的性能得到了提高，凸显了其有效性和多功能性。为了确保可重现性，我们提供了我们的代码的开放访问。

Abstract

We propose c-laifo, a computationally efficient algorithm designed for imitation learning from videos, even in the presence of visual mismatch

发现论文，激发创造

基于观察数据的生成对抗模仿

本文提出了一种基于生成对抗网络的从观察中模仿学习方法（GAIfO），它可以在没有行动信息的情况下直接从状态演示中学习，进行了两种不同设置的实验证明它在高维模拟环境中优于现有的直接从状态演示方法。

Jul, 2018

注射式状态-图像映射用于视觉对抗性模仿学习

为了更好地控制自然动作，本文提出了一种深度学习方法，通过直接模仿原始视频演示来获得控制策略，并且使用生成对抗网络依据低维度特征代替手工奖励估计步骤，同时展示了该方法可以产生类似于专家演示视频的学习性能。

Oct, 2018

任务相关的对抗性模仿学习

本文探讨对抗模仿领域中鉴别器网络学习视觉特征与专家标签之间的虚假关联所造成的关键漏洞，并提出了一种新的解决方案(TRAIL)，该方法通过优化受限的鉴别器来获得informative rewards。在实验中，我们展示了TRAIL能够在没有访问任何任务奖励的情况下，通过模仿人类的操作来解决具有挑战性的机器人操纵任务，并明显优于其他基于行为克隆和传统GAIL的对抗模仿代理模型。

Oct, 2019

领域鲁棒性视觉仿真学习与互信息约束

介绍了一种名为Disentangling Generative Adversarial Imitation Learning（DisentanGAIL）的新算法，可通过对抗学习来自动学习高维度任务表现观察的特征，从而成功进行模仿，同时忽略专家和代理之间的差异，此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。

Mar, 2021

对比傅里叶特征的证明表示学习与模仿

本文研究使用离线数据集，学习低维状态表示以加速模仿学习的采样效率，使用对比学习方法实现表示学习目标，并在Atari游戏中进行了实验。

May, 2021

使用变分模型的视觉对抗性模仿学习

该论文介绍了一种使用固定数据集的视觉演示来学习如何完成任务的方法，并提出了一种基于变分模型的对抗性模仿学习算法来处理高维空间、固定奖励等挑战，实验结果表明 V-MAIL 算法能够高效稳定地学习成功的视觉动作策略。

Jul, 2021

使用状态观察器从视频中进行对抗性模仿学习

介绍了一种名为 Visual Generative Adversarial Imitation from Observation using a State Observer(VGAIfO-SO) 的新算法，该算法使用自我监督的状态观察器从高维图像中提供低维本体感知状态表示的估计，从而更有效地从仅视频演示中学习，并且有时可以实现接近于有特权访问演示者本体感知状态信息的 GAIfO 算法的性能。

Feb, 2022

使用潜在信息进行视觉观察的对抗性模仿学习

基于视觉观测的模仿学习的研究, 在部分可观察环境中, 引入了基于状态潜在转换分布的上界来分析学习代理的次优性, 并提出了一种名为潜在对抗性观测模仿学的算法, 在高维连续机器人任务中表现出与最先进的性能，同时提供显著的计算优势，并可以利用专家视频来提高从像素进行强化学习的效率。

Sep, 2023

校准对比表示的视觉模仿学习

该研究提出了将校准对比学习应用于视觉对抗性模仿学习框架的简单有效解决方案，以从视觉状态中提取有价值的特征，在不修改架构或产生显著计算成本的情况下，可以与模仿学习框架共同优化。实验证明，该方法在 DMControl Suite 上能够以样本效率高、从多个方面超越其他方法。

Jan, 2024

高效的保守世界模型下的模仿学习

我们通过对专家演示进行政策学习来解决没有奖励函数的问题，并提出了将模仿学习视为微调问题的方法，通过在高维原始像素观测中在Franka Kitchen环境上取得了最新的最佳性能，只需要10个演示且没有奖励标签，同时解决了复杂的灵巧操作任务。

May, 2024