基于状态对齐的模仿学习

Nov, 2019

State Alignment-based Imitation Learning

Fangchen Liu, Zhan Ling, Tongzhou Mu, Hao Su

TL;DR提出一种基于状态对齐的模仿学习方法，旨在训练模仿者尽可能地模仿专家演示中的状态序列，该方法将本地和全局的状态对齐结合到一个强化学习框架中，并通过一个规则化的策略更新目标来实现。该方法在标准模仿学习设置和专家和模仿者具有不同动力学模型的模仿学习设置中显示了其优越性。

Abstract

Consider an imitation learning problem that the imitator and the expert have different dynamics models. Most of the current imitation learning

imitation learning state alignment dynamics models reinforcement learning policy update

发现论文，激发创造

具有状态的模仿学习与转移动力学不匹配

本文介绍了一种新的基于状态的模仿学习算法，借助最近的对抗模仿学习方法，通过将总体优化目标分解为两个子问题并迭代地解决这些子问题，解决了专家和模仿者 MDPs 之间的过渡动力学不匹配问题。作者还通过 OpenAI Gym 的 MuJoCo 运动任务构造了几个有趣的 Markov 决策过程，分析表明该算法在存在过渡动力学不匹配现象时特别有效，而基线 IL 方法则会导致性能下降。

Feb, 2020

具有逆动力学表示的稳健视觉模仿学习

我们提出了一种新颖的鲁棒模仿学习方法，通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境，通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性，从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能，并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。

Oct, 2023

基于专家状态序列的混合强化学习

本文提出一种基于张量的模型，用于推断专家状态序列中未被观察到的动作，通过混合强化学习和模仿学习来优化智能体的策略，实证结果表明这种混合方法比一般的深度神经网络模型更具优势，并且在专家状态序列中表现出了抗扰动的特性。

Mar, 2019

跨域观测下的模仿学习

本篇研究针对专家行为与训练代理之间的差异，提出了一种基于无配对无对齐的轨迹，以及循环一致性限制的框架，来学习对应关系以解决领域差异的问题，并通过实验证明了该方法的有效性。

May, 2021

精细操作的纯状态模仿学习

研究了在复杂领域中，采用反向动力学模型辅助的状态模仿学习方法，并将其与传统的专家演示方法相比，证明了该方法在不同动力学、形态、物体的模拟学习中表现出了良好的优越性能。

Apr, 2020

领域自适应模仿学习

介绍了一种领域自适应模仿学习（DAIL）问题的形式化表达，提出了一种两步方法：对齐和适应，通过无监督的 MDP 对齐算法（GAMA）执行对齐步骤并利用对应关系在不需要经过环境交互的情况下在不同领域中实现任务零次模仿。

Sep, 2019

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

基于反向模型的少量演示稳健仿真

本文提出了一种基于生成式反向动力学模型的行为克隆方法以解决自我学习表现不佳的问题，利用模型产生短期想象轨迹进行训练，提高了模型的健壮性和适应性。

Oct, 2022

通过转换模型不一致性学习观测到的模仿

本文提出了一种利用中间策略来训练学习者的一种方法，该中间策略可以近似地执行专家的策略，以便用于不同环境下的模仿学习，并在 MuJoCo 运动任务中取得了良好的结果。

Apr, 2022

高效对抗模仿学习

本研究提出了一种基于自监督表示学习的对抗性模仿学习方法，用于学习具有抗扭曲性和时间预测性的状态和动作表示，以提高样本效率，并在 MuJoCo 的 100 个专家状态 - 动作对设置中相对于现有方法表现出 39％的改进。

Mar, 2023