基于模型和策略熵正则化的基于模型仿真学习

Jun, 2022

基于模型和策略熵正则化的基于模型仿真学习

Model-Based Imitation Learning Using Entropy Regularization of Model and Policy

Eiji Uchibe

TL;DR使用基于生成对抗神经网络的方法进行模仿学习具有许多优点，但是由于使用了无模型强化学习算法，需要与实际环境进行大量交互来训练生成器。为此，提出了基于模型的熵正则化模仿学习算法（MB-ERIL），通过基于熵正则化马尔可夫决策过程，减少与实际环境的交互次数。MB-ERIL使用了两个判别器，通过结构化判别器，MB-ERIL的学习效率得到了提高。计算机模拟和真实机器人实验表明，与基线方法相比，MB-ERIL取得了具有竞争力的性能，并显着提高了样本效率。

Abstract

Approaches based on generative adversarial networks for imitation learning are promising because they are sample efficient in terms of expert demonstrations. However, training a generator requires many interactio

发现论文，激发创造

无模型模仿学习与策略优化

在模仿学习中，我们使用基于样本的方法开发了一种基于策略梯度的算法，即通过学习专家的样本轨迹，找到至少与专家策略一样好的参数化随机策略；该算法可以应用于高维度环境，并保证收敛到局部最小值。

May, 2016

基于模型的对抗性模仿学习

该文介绍了 Model based Adversarial Imitation Learning （MAIL）算法，为对抗性模仿学习问题提供了一种基于模型的方法，使用前向模型使该系统完全可微分，以训练出优秀的策略。在MuJoCo物理模拟器上测试后，该方法的初始结果超过了当前的最优状态。

Dec, 2016

基于生成对抗网络的样本高效模仿学习

本文介绍了一种在模型free的前提下能够提高采样效率的演员评论家结构，利用了GAIL中对抗训练的方法和离策略演员评论家的优势，在多个连续控制任务中，我们证明了这种方法的简洁易行和稳定性。

Sep, 2018

生成性前继模型用于高效模仿学习

提出了基于生成模型的前身模型的模仿学习算法，能够将状态-动作分布与专家演示中观察到的分布匹配，并使用概率化模型对演示状态的可替代历史进行推理，证明这种方法仅需少量专家演示和自我监督交互即可学习出健壮的策略，并在实验中与现阶段的模仿学习方法进行比较，结果表明在两个模拟机器人操作任务中表现优秀，且应用于实际机器人上的算法具有显著的样本效率。

Apr, 2019

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作“软Q模仿学习”的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准Q学习或离线策略演员-评论家算法。

May, 2019

确定性判别式模仿(D2-模仿): 重新审视对抗模仿以提高样本效率

本文提出了一种无需使用对抗训练或最大最小优化的离线策略样本高效方法D2-Imitation，利用TD学习和确定性策略简化了学习过程，经实验验证在许多控制任务中比对抗性模仿的离线策略扩展方法更加高效。

Dec, 2021

通过估计演示者的专业水平进行模仿学习

本研究通过对演示者专业技能的无监督学习，开发了一种可同时学习演示者政策和专业技能水平的联合模型，并通过过滤每种演示者的次优行为，训练出可以优于任何演示者的单一策略，并可用于估计任意状态下演示者的专业技能，在Robomimic等实际机器人控制任务以及MiniGrid和棋类等离散环境中取得了比其他方法更好的表现。

Feb, 2022

高效示教学习的规划

提出了EfficientImitate这一基于规划的模仿学习方法，成功地将两类看似不兼容的模仿算法：行为克隆和对抗模仿学习，自然地统一到了一个框架中，实现了在性能和样本效率方面的高水平。

Oct, 2022

使用因果不变性进行正则化的对抗模仿学习

使用因果不变性作为对抗训练模型的正则化原则，以缓解模型吸收专家数据中的虚假相关性，并在二维示例环境和高维机器人运动基准任务中展示了正则化公式的有效性。

Aug, 2023

高效的保守世界模型下的模仿学习

我们通过对专家演示进行政策学习来解决没有奖励函数的问题，并提出了将模仿学习视为微调问题的方法，通过在高维原始像素观测中在Franka Kitchen环境上取得了最新的最佳性能，只需要10个演示且没有奖励标签，同时解决了复杂的灵巧操作任务。

May, 2024