Sep, 2017

预测图像和视频字幕检索的文本视觉特征

TL;DR本文提出了一种基于视觉空间进行图像和视频描述检索的深度神经网络模型,通过多尺度句向量化和多层感知器等方法,将文本输入转化为视觉特征表示,实现了优于文本嵌入的多模态检索效果。