ICCVAug, 2019

共享多模态嵌入的无监督图像字幕生成

TL;DR通过共享的、结构化的视觉概念潜在空间,将图像特征转化到语义向量嵌入空间中,并使用同一语言模型将其解码为场景描述,无需明确监督来了解图像;这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库,并且具有鲁棒性。