CVPRMay, 2019

SuperCaptioning: 利用二维词嵌入进行图像字幕生成

TL;DR本研究提出了一种名为 SuperCaptioning 的方法,通过借鉴 Super Characters 方法中的二维词嵌入思想,在一个单一的 CNN 模型中同时处理语言和视觉信息,从而将图像字幕生成问题转化为图像分类问题,实验证明此方法可以在 Flickr30k 数据上生成高质量的图像字幕,并提供互动演示。