ACLJul, 2017

学习基于图像的句子表示

TL;DR我们介绍了训练在监督图像字幕语料库上的多种模型,用于预测给定字幕的图像特征,以执行句子表示接地。我们训练了一个接地的句子编码器,在 Coco 字幕和图像检索方面取得了良好的性能,随后展示了该编码器可以成功地转移到各种 NLP 任务,与仅文本模型相比,性能有所提高。最后,我们分析了接地的贡献,表明该系统学习到的单词嵌入优于非接地的单词嵌入。