环境动力学变化下的强化模仿学习

ICMLJun, 2022

环境动力学变化下的强化模仿学习

Robust Imitation Learning against Variations in Environment Dynamics

Jongseong Chae, Seungyul Han, Whiyoung Jung, Myungsik Cho, Sungho Choi...

TL;DR本文介绍了一种健壮的模仿学习（IL）框架，可以提高在环境动态发生扰动时的鲁棒性。通过模拟多个不同环境的专家来增强鲁棒性，并通过利用 Jensen-Shannon 散度来最小化风险以提高算法的性能。结果表明，该算法相比于传统的 IL 方法可以显著提高在动态扰动下的鲁棒性。

Abstract

In this paper, we propose a robust imitation learning (IL) framework that improves the robustness of IL when environment dynamics are pert

imitation learning robustness environment dynamics jensen-shannon divergence policy

发现论文，激发创造

具有逆动力学表示的稳健视觉模仿学习

我们提出了一种新颖的鲁棒模仿学习方法，通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境，通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性，从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能，并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。

Oct, 2023

模仿学习：在可变环境中实现即插即用的模仿能力

提出了一种名为模仿学习（ItorL）的新主题，旨在基于非常有限的专家示范实现即时重构模仿策略，用于不同的未知任务，无需任何额外的调整。通过将模仿学习集成到强化学习范式中，设计了 Demo-Attention Actor-Critic（DAAC）来解决 ItorL 问题，并为模仿者策略设计了一种基于示范的注意力架构，可以通过自适应追踪示范中的适当状态有效地输出模仿动作。在新的导航基准和机器人环境中，展示出 DAAC 在已知和未知任务上均比之前的模仿方法有着显著的优势。

Oct, 2023

EvIL：演化策略用于可广泛应用的模仿学习

在仿真学习中，我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能，同时加速目标环境中的重新训练，在连续控制任务中比之前的工作更加高效地重新训练策略。

Jun, 2024

IQ-Learn: 逆软 Q 学习用于模仿

介绍了一种动态感知的逆强化学习方法 ——IQ-Learn，它通过学习单个 Q 函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。

Jun, 2021

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

通用策略的不变因果模仿学习

基于多个环境中的行为演示来学习模仿策略，通过学习跨域不变的特征表示，构建与专家行为匹配的模仿策略，以实现在未见环境中的泛化能力。

Nov, 2023

如何在离线模仿学习中利用多样化的示范

离线仿真学习（IL）在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法，基于其结果状态识别积极行为，从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估，结果表明我们的方法达到了最先进的性能，在 20/21 个基准测试中超越了现有方法，通常是 2-5 倍，并且与行为克隆（BC）保持可比的运行时间。

May, 2024

通过估计演示者的专业水平进行模仿学习

本研究通过对演示者专业技能的无监督学习，开发了一种可同时学习演示者政策和专业技能水平的联合模型，并通过过滤每种演示者的次优行为，训练出可以优于任何演示者的单一策略，并可用于估计任意状态下演示者的专业技能，在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。

Feb, 2022

灵活推理、规划和控制的深度仿真模型

本文提出了模仿模型方法，将模仿学习和目标导向规划相结合，使用概率预测模型生成解释性的专家级轨迹，以实现特定目标。在动态模拟自主驾驶任务中，我们的方法显著优于六种模仿学习方法和一种基于规划的方法，并可以从专家演示中高效地学习。此外，我们的方法对于目标规范不良的情况具有鲁棒性。

Oct, 2018

可微分物理学的模仿学习

本文提出了一种新的基于可微分物理仿真器的模仿学习方法 (ILD)，该方法将物理预设作为先验加入到计算图中进行策略学习，在优化过程中动态选择每个状态的学习目标，实现了单循环结构，提高了稳定性和训练速度。在验证中，ILD 在连续控制任务和变形物体操作任务中表现优异，且只需要一次专家演示。

Jun, 2022