基于能量的模仿学习

Apr, 2020

Energy-Based Imitation Learning

Minghuan Liu, Tairan He, Minkai Xu, Weinan Zhang

TL;DR该论文提出了一种简化的能量基模仿学习（EBIL）框架，该框架使用分数匹配来估计专家能量，然后使用其作为强化学习算法中的奖励来学习策略，以实现与目前现有算法相当的性能水平。

Abstract

We tackle a common scenario in imitation learning (IL), where agents try to recover the optimal policy from expert demonstrations without further access to the expert or environment reward signals. Except the simple Behavior Cloning (BC) that adopts supervised learning followed by the

imitation learning energy-based models reinforcement learning score matching expert energy

发现论文，激发创造

EvIL：演化策略用于可广泛应用的模仿学习

在仿真学习中，我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能，同时加速目标环境中的重新训练，在连续控制任务中比之前的工作更加高效地重新训练策略。

Jun, 2024

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023

IQ-Learn: 逆软 Q 学习用于模仿

介绍了一种动态感知的逆强化学习方法 ——IQ-Learn，它通过学习单个 Q 函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。

Jun, 2021

高效示教学习的规划

提出了 EfficientImitate 这一基于规划的模仿学习方法，成功地将两类看似不兼容的模仿算法：行为克隆和对抗模仿学习，自然地统一到了一个框架中，实现了在性能和样本效率方面的高水平。

Oct, 2022

再探能量模型作为策略：排序噪声对比估计和插值能量模型

通过引入排名噪声对比估计（R-NCE）、可学习的负采样器和非对抗联合训练等关键因素，我们证明了高维连续空间中能量模型在训练时并不是不切实际的，我们的训练算法使能量模型作为策略在多模态路径规划和有接触力量推动等难度较高的基准测试中与扩散模型和其他最先进方法相竞争甚至表现更好。

Sep, 2023

基于模型和策略熵正则化的基于模型仿真学习

使用基于生成对抗神经网络的方法进行模仿学习具有许多优点，但是由于使用了无模型强化学习算法，需要与实际环境进行大量交互来训练生成器。为此，提出了基于模型的熵正则化模仿学习算法（MB-ERIL），通过基于熵正则化马尔可夫决策过程，减少与实际环境的交互次数。MB-ERIL 使用了两个判别器，通过结构化判别器，MB-ERIL 的学习效率得到了提高。计算机模拟和真实机器人实验表明，与基线方法相比，MB-ERIL 取得了具有竞争力的性能，并显着提高了样本效率。

Jun, 2022

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019

基于集成的交互式模仿学习

我们研究了交互式模仿学习，其中学习者通过与演示专家的互动查询动作注释，旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习（EIIL）的算法框架，可实现此目标。从理论上讲，我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔，前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上，EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。

Dec, 2023

贝叶斯解决模仿间隙

在缺乏奖励信号的环境中，我们提出了一种基于贝叶斯的解决方案（BIG），通过使用专家演示和指定未演示的探索性行为成本的先验，来推断贝叶斯逆强化学习（IRL）中的奖励后验，从而学习到基于贝叶斯的最优策略。我们的实验表明，BIG 能够在测试时适应模仿差距，同时在不存在模仿差距时仍能通过专家演示学习到最优行为。

Jun, 2024

贝叶斯鲁棒优化用于模仿学习

提出一种基于贝叶斯鲁棒优化的模仿学习方法（BROIL），旨在有效优化稳健策略，平衡期望收益与条件风险价值，并在风险敏感和风险中性逆强化学习算法中表现优越。

Jul, 2020