Sep, 2017

DropoutDAgger: 一种安全模仿学习的贝叶斯方法

TL;DR本文提出了一种基于概率 DAgger 的算法,使用了 dropout 训练新手并提供其置信度,通过新手行为分布估计与专家行为相关的安全的概率度量,以平衡探索和利用,在 MuJoCo HalfCheetah 和简单的驾驶实验中证明了与其他 DAgger 变体和经典模仿学习相比的性能和安全性的提高。