Apr, 2020

在逼真环境中学习视觉导航,无需任何监督

TL;DR提出了一种无需外部监督或奖励的新方法,通过三个阶段,学习从图像输入进行导航:学习视角的良好表示,然后使用内存进行探索,最后通过设置自己的目标来学习导航。该模型仅使用内在奖励进行培训,因此适用于任何具有图像观察的环境。通过使用 RGB 输入训练代理在具有挑战性的 Gibson 数据集的逼真环境中导航的好处。