Mar, 2018

OIL: 观测模仿学习

TL;DR提出了一种支持在线训练和自动选择最佳行为的新型模仿学习变体 ——OIL,应用于自动驾驶和无人机比赛的挑战性问题,使用 Sim4CV 仿真器进行大量合成训练数据的生成和在线学习和评估,并使用感知网络来预测路点和 OIL 来训练控件预测网络。实验表明,我们的训练网络在模拟中的表现优于其老师 / 人类以及传统的模仿学习和强化学习基线模型。