ICCVAug, 2019
共享多模态嵌入的无监督图像字幕生成
Towards Unsupervised Image Captioning with Shared Multimodal Embeddings
Iro Laina, Christian Rupprecht, Nassir Navab
TL;DR通过共享的、结构化的视觉概念潜在空间,将图像特征转化到语义向量嵌入空间中,并使用同一语言模型将其解码为场景描述,无需明确监督来了解图像;这种转化借助于暴露于图像 / 标题数据分布之外的大型文本语料库,并且具有鲁棒性。