具有逆动力学表示的稳健视觉模仿学习

Oct, 2023

具有逆动力学表示的稳健视觉模仿学习

Robust Visual Imitation Learning with Inverse Dynamics Representations

Siyuan Li, Xun Wang, Rongchang Zuo, Kewu Sun, Lingfei Cui...

TL;DR我们提出了一种新颖的鲁棒模仿学习方法，通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境，通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性，从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能，并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。

Abstract

imitation learning (IL) has achieved considerable success in solving complex sequential decision-making problems. However, current IL methods mainly assume that the environment for learning policies is the same a

imitation learning environment robust imitation learning state representation reward function

发现论文，激发创造

IQ-Learn: 逆软 Q 学习用于模仿

介绍了一种动态感知的逆强化学习方法 ——IQ-Learn，它通过学习单个 Q 函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。

Jun, 2021

基于模型的视觉演示逆强化学习

本文介绍了一种基于梯度的反向强化学习框架，利用预训练的视觉动态模型从视觉人类演示中学习成本函数，并通过视觉模型预测控制来复制演示行为，以解决机器人操作中的未知动力学等问题。我们在两个基本的对象操作任务上评估了我们的框架。

Oct, 2020

环境动力学变化下的强化模仿学习

本文介绍了一种健壮的模仿学习（IL）框架，可以提高在环境动态发生扰动时的鲁棒性。通过模拟多个不同环境的专家来增强鲁棒性，并通过利用 Jensen-Shannon 散度来最小化风险以提高算法的性能。结果表明，该算法相比于传统的 IL 方法可以显著提高在动态扰动下的鲁棒性。

Jun, 2022

具有状态的模仿学习与转移动力学不匹配

本文介绍了一种新的基于状态的模仿学习算法，借助最近的对抗模仿学习方法，通过将总体优化目标分解为两个子问题并迭代地解决这些子问题，解决了专家和模仿者 MDPs 之间的过渡动力学不匹配问题。作者还通过 OpenAI Gym 的 MuJoCo 运动任务构造了几个有趣的 Markov 决策过程，分析表明该算法在存在过渡动力学不匹配现象时特别有效，而基线 IL 方法则会导致性能下降。

Feb, 2020

通过模仿自然序列中的动态进行视觉预测

我们引入了一种通用的视觉预测框架，旨在直接模仿视觉序列而不需要额外的监督。我们通过将视觉预测转化为逆强化学习问题，并通过可训练的深层特征表示扩展最近的进展来解决计算瓶颈。我们在低级像素到高级语义的三个不同级别上评估了我们的方法，在所有级别上，我们的方法都优于现有的方法。

Aug, 2017

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

反演动态预训练为多任务模仿学习学习良好的表征

本研究在模仿学习中评估了如何使用大型数据集进行预训练。我们提供了关于使用多任务演示和逆动力学建模的语境下进行预训练的证据，并在各种虚拟视觉操作问题中评估了这些证据。

May, 2023

可微分物理学的模仿学习

本文提出了一种新的基于可微分物理仿真器的模仿学习方法 (ILD)，该方法将物理预设作为先验加入到计算图中进行策略学习，在优化过程中动态选择每个状态的学习目标，实现了单循环结构，提高了稳定性和训练速度。在验证中，ILD 在连续控制任务和变形物体操作任务中表现优异，且只需要一次专家演示。

Jun, 2022

基于归一化流的观测式模仿学习 (IL-flOw)

本论文介绍了一种基于状态观测的逆强化学习算法 IL-flOw，其将奖励建模与策略学习解耦，并利用深度密度估计方法生成奖励信号，避免了对抗训练方法的不稳定性问题。通过使用状态转移概率密度作为正向强化学习的奖励信号，实验结果展示了在大规模机器人控制任务上的优秀表现。

May, 2022

校准对比表示的视觉模仿学习

该研究提出了将校准对比学习应用于视觉对抗性模仿学习框架的简单有效解决方案，以从视觉状态中提取有价值的特征，在不修改架构或产生显著计算成本的情况下，可以与模仿学习框架共同优化。实验证明，该方法在 DMControl Suite 上能够以样本效率高、从多个方面超越其他方法。

Jan, 2024