ACLApr, 2019

学习在未见过的环境中导航:使用环境 dropout 进行回译

TL;DR本文提出了一个可适应新场景的机器人导航算法,通过混合模仿学习和强化学习的训练方法,以及利用 “环境丢失” 技术生成新的路径和指令进行微调。实验证明所提出的算法在没有见过的测试环境中具有更好的泛化性能。