SAFE-GIL:安全引导的模仿学习
本文提出一种名为 EnsembleDAgger 的算法,其通过使用神经网络集合来近似高斯过程,并以方差作为信心的衡量标准,在最大化学习效果的同时,限制了失败的可能性,从而提高了机器人的安全性能。
Jul, 2018
本文提出了一种基于变分自编码器的策略嵌入方法,相比传统的监督学习方法和生成对抗网络的模仿学习,该方法可以从更少的示范数据中学习到更为鲁棒的控制器,并避免了模式坍塌现象。
Jul, 2017
本文提出一种通过学习真实世界中的驾驶示范数据来学习神经驾驶策略的方法,并使用广义博弈对抗模型进行智能驾驶行为生成,同时介绍了解决多智能体驾驶建模中存在的问题的多智能体模型,并描述了奖赏信号修正的 reward augmented imitation learning (RAIL) 和 Burn-InfoGAIL 对潜在变化因素进行解耦的方法。在 NGSIM 实验数据集上,成功地模拟了高速公路上的驾驶行为。
Jun, 2020
通过模拟驾驶场景来验证自主车辆的安全性,GAIL 可学习到具有代表性的人类驾驶模型,但在多主体驾驶情境中存在困难,我们通过基于课程学习的参数共享方法扩展 GAIL 以解决这些缺点,PS-GAIL 方法生成的策略在多主体设置下表现优异且能够捕捉人类驾驶员的紧急行为。
Mar, 2018
通过分析基于遗传对抗生成模型的模仿方法与基于行为克隆的模仿方法之间的价值差异,本文发现前者相比后者可以减少复合误差,具有更好的样本复杂度,同时也可以被用于学习环境模型的模仿学习方法可以更加有效地模仿环境模型,提出一种全新的模型导向的增强学习应用方向。
Oct, 2020
本文介绍了用于模仿学习的算法,其中 Generative Adversarial Imitation Learning (GAIL) 是当前的最先进算法,但是他们在一些关键领域比人类专家更容易出现失误。作者提出了一种新的 Risk-Averse Imitation Learning (RAIL) 算法以更好地解决这个问题。
Jul, 2017
本研究提出了 HG-DAgger 算法,该算法是 DAgger 算法在交互式人机模仿学习方面更为适用的变体,它不仅训练一个初学者策略,还学习了基于模型不确定性的风险度量的安全阈值,以预测状态空间中不同区域的完全训练初学者的性能,在模拟和实际的自动驾驶任务中,HG-DAgger 算法表现出比 DAgger 和行为克隆更好的性能。
Oct, 2018
本文提出了一种基于差异传播分析法来分析模仿学习方法理论特性的框架,该框架揭示了模仿学习方法在不同设置下的价值差异。通过理论与实验的结合,我们首次分析了 GAIL 的性能表现,并发现该方法具备比行为克隆更少的复利误差,这为模仿学习算法的未来改进提供了启示。
Nov, 2019