NIPSJun, 2018

用于视觉与语言导航的说话者 - 跟随者模型

TL;DR本研究提出了一种使用内置语音模型的视觉 - 语言导航方法,该方法利用演讲者模型来合成新的指令进行数据增强,并实现了实用推理和全景动作空间,大大提高了基线指令跟随者的性能,在标准基准测试中成功率超过现有最佳方法的两倍。