Jul, 2020

面向户外视觉语言导航的多模态文本风格转换

TL;DR本文介绍了一种多模态文本风格转换的学习方法,利用外部多模态资源缓解了户外导航任务中的数据匮乏问题,并使用Google Maps API生成的指令扩充了导航数据,进而预先训练了导航器。实验结果表明,我们的多模态文本风格转换学习方法不受模型限制,在户外视觉和语言导航任务中,相对于基准模型,改善了任务完成率8.7%。