端到端自主驾驶的高效查询模仿学习

May, 2016

端到端自主驾驶的高效查询模仿学习

Query-Efficient Imitation Learning for End-to-End Autonomous Driving

Jiakai Zhang, Kyunghyun Cho

TL;DR本论文介绍了一种名为 SafeDAgger 的基于 DAgger 算法的自动驾驶智能学习方法，能够有效地减少对参考策略的查询次数，加快收敛速度。

Abstract

One way to approach end-to-end autonomous driving is to learn a policy function that maps from a sensory input, such as an image frame from a front-facing camera, to a driving action, by imitating an expert driver, or a reference policy. This can be done by supervised learning, where a

autonomous driving policy function imitation learning dagger safedagger

发现论文，激发创造

使用端到端深度模仿学习的敏捷自主驾驶

我们提出了一种使用低成本传感器进行敏捷越野自主驾驶的端到端模仿学习系统，通过模仿配备高级传感器的模型预测控制器，我们训练了一个深度神经网络控制策略，将原始的高维观测映射到连续的转向和油门命令，这个方法不需要状态估计或实时规划来导航车辆，并通过在线模仿学习克服了协变量漂移方面的挑战，实现了成功的高速越野行驶，匹配了最新的性能水平。

Sep, 2017

基于条件模仿学习的端到端驾驶

本文提出了一种基于高层指令输入的条件性模仿学习方法，使得经过训练的车辆在测试时间内仍然能够遵循导航指令，本文在仿真实验和机器人卡车实验中对各种条件性模仿学习架构进行了评估和实践。

Oct, 2017

EnsembleDAgger：一种安全模仿学习的贝叶斯方法

本文提出一种名为 EnsembleDAgger 的算法，其通过使用神经网络集合来近似高斯过程，并以方差作为信心的衡量标准，在最大化学习效果的同时，限制了失败的可能性，从而提高了机器人的安全性能。

Jul, 2018

DropoutDAgger: 一种安全模仿学习的贝叶斯方法

本文提出了一种基于概率 DAgger 的算法，使用了 dropout 训练新手并提供其置信度，通过新手行为分布估计与专家行为相关的安全的概率度量，以平衡探索和利用，在 MuJoCo HalfCheetah 和简单的驾驶实验中证明了与其他 DAgger 变体和经典模仿学习相比的性能和安全性的提高。

Sep, 2017

HG-DAgger：人机交互式模仿学习

本研究提出了 HG-DAgger 算法，该算法是 DAgger 算法在交互式人机模仿学习方面更为适用的变体，它不仅训练一个初学者策略，还学习了基于模型不确定性的风险度量的安全阈值，以预测状态空间中不同区域的完全训练初学者的性能，在模拟和实际的自动驾驶任务中，HG-DAgger 算法表现出比 DAgger 和行为克隆更好的性能。

Oct, 2018

通过模仿强化学习教练实现端到端城市驾驶

通过强化学习教练，我们的端到端自主驾驶智能体实现了与人类专家水平接近的表现，其能够通过鸟瞰图像实现连续的低级别操作，提供可靠的监督信号，从而在 NoCrash-dense 基准测试和 CARLA LeaderBoard 公共路线方面达到了最先进的性能。

Aug, 2021

行人密集环境下的模仿导航

本文提出了一种新的在步行丰富的环境下进行自主导航的算法，该算法使用基于展示和指导的行为学习，结合深度卷积神经网络和分层嵌套策略选择机制，能够有效地学习专家干预并成功地在实际世界中进行自主导航。

Nov, 2018

条件模仿学习和指令增强实现更安全的端到端自动驾驶

本研究提出了基于分离式概率潜变量模型来生成方向盘操控命令的新方法，以实现对自动驾驶汽车进行高层次控制的目的，并扩展了模型以训练对异常方向盘操控命令具有弹性的控制器，达到了在可靠性和可解释性方面均优于当今最先进的技术水平的目的。

Sep, 2019

通过学习端到端的视觉关注来解释自动驾驶

通过使用注意力模型来提高 CARLA 驾驶模拟器的性能，同时通过模仿学习训练代理人来解释自动驾驶中深度学习无法解释的决策问题。

Jun, 2020

利用相机和激光雷达数据进行自监督模仿学习的端到端驾驶

该论文提出了第一种无监督学习框架 self-supervised imitation learning (SSIL)，该框架可以在没有使用驾驶命令数据的情况下学习 E2E 驾驶网络，并且与监督学习对照组具有可比较的 E2E 驾驶准确性。

Aug, 2023