CVPRMar, 2020

无监督的视频视觉定位词汇翻译

TL;DR利用视觉基础方法,通过学习不成对指导视频中讲解的语言产生共同的视觉表示方法。我们可以将这种共同的表示方法用于单词映射和跨语言翻译,尤其是对于 “视觉” 单词。同时,我们的基于视觉 - 文本的转换算法 MUVE 提高了非监督文本翻译技术的性能,特别是处理少见单词和低资源语言数据时。