SAFE-GIL：安全引导的模仿学习

Apr, 2024

SAFE-GIL: SAFEty Guided Imitation Learning

Yusuf Umut Ciftci, Zeyuan Feng, Somil Bansal

TL;DRSAFE-GIL 通过对专家进行对抗性干扰来引导数据采集，从而解决行为克隆方法的 “错误混合问题”，在安全关键状态下更接近专家行为，并在低数据情况下提高任务成功率和安全性。

Abstract

behavior cloning is a popular approach to imitation learning, in which a robot observes an expert supervisor and learns a control policy. However, →

behavior cloning imitation learning compounding error off-policy behavior cloning adversarial disturbance

发现论文，激发创造

EnsembleDAgger：一种安全模仿学习的贝叶斯方法

本文提出一种名为 EnsembleDAgger 的算法，其通过使用神经网络集合来近似高斯过程，并以方差作为信心的衡量标准，在最大化学习效果的同时，限制了失败的可能性，从而提高了机器人的安全性能。

Jul, 2018

自监督对抗模仿学习

本文提出一个包含鉴别器的行为克隆学习方法，用于解决之前的学习策略容易被困入错误局部最小值的问题，避免了人工干预的需要，利用鉴别器计算得到过渡函数从而帮助学习。

Apr, 2023

多样行为的鲁棒性模仿

本文提出了一种基于变分自编码器的策略嵌入方法，相比传统的监督学习方法和生成对抗网络的模仿学习，该方法可以从更少的示范数据中学习到更为鲁棒的控制器，并避免了模式坍塌现象。

Jul, 2017

通过生成式对抗模仿学习建模人类驾驶行为

本文提出一种通过学习真实世界中的驾驶示范数据来学习神经驾驶策略的方法，并使用广义博弈对抗模型进行智能驾驶行为生成，同时介绍了解决多智能体驾驶建模中存在的问题的多智能体模型，并描述了奖赏信号修正的 reward augmented imitation learning (RAIL) 和 Burn-InfoGAIL 对潜在变化因素进行解耦的方法。在 NGSIM 实验数据集上，成功地模拟了高速公路上的驾驶行为。

Jun, 2020

驾驶模拟的多智能体模仿学习

通过模拟驾驶场景来验证自主车辆的安全性，GAIL 可学习到具有代表性的人类驾驶模型，但在多主体驾驶情境中存在困难，我们通过基于课程学习的参数共享方法扩展 GAIL 以解决这些缺点，PS-GAIL 方法生成的策略在多主体设置下表现优异且能够捕捉人类驾驶员的紧急行为。

Mar, 2018

模仿策略与环境的误差界

通过分析基于遗传对抗生成模型的模仿方法与基于行为克隆的模仿方法之间的价值差异，本文发现前者相比后者可以减少复合误差，具有更好的样本复杂度，同时也可以被用于学习环境模型的模仿学习方法可以更加有效地模仿环境模型，提出一种全新的模型导向的增强学习应用方向。

Oct, 2020

RAIL：风险厌恶模仿学习

本文介绍了用于模仿学习的算法，其中 Generative Adversarial Imitation Learning (GAIL) 是当前的最先进算法，但是他们在一些关键领域比人类专家更容易出现失误。作者提出了一种新的 Risk-Averse Imitation Learning (RAIL) 算法以更好地解决这个问题。

Jul, 2017

端到端自主驾驶的高效查询模仿学习

本论文介绍了一种名为 SafeDAgger 的基于 DAgger 算法的自动驾驶智能学习方法，能够有效地减少对参考策略的查询次数，加快收敛速度。

May, 2016

HG-DAgger：人机交互式模仿学习

本研究提出了 HG-DAgger 算法，该算法是 DAgger 算法在交互式人机模仿学习方面更为适用的变体，它不仅训练一个初学者策略，还学习了基于模型不确定性的风险度量的安全阈值，以预测状态空间中不同区域的完全训练初学者的性能，在模拟和实际的自动驾驶任务中，HG-DAgger 算法表现出比 DAgger 和行为克隆更好的性能。

Oct, 2018

关于模仿学习价值偏差的研究

本文提出了一种基于差异传播分析法来分析模仿学习方法理论特性的框架，该框架揭示了模仿学习方法在不同设置下的价值差异。通过理论与实验的结合，我们首次分析了 GAIL 的性能表现，并发现该方法具备比行为克隆更少的复利误差，这为模仿学习算法的未来改进提供了启示。

Nov, 2019