Apr, 2016

Word2VisualVec: 利用视觉特征预测图像和视频对句子的匹配

TL;DR本研究旨在寻找最佳描述图像或视频内容的语句,通过生成句向量和多层感知机,构建了一个名为Word2VisualVec的深度神经网络体系结构来实现针对图像或视频与句子的匹配。该体系结构在四个复杂的图像和视频基准上的实验测试中表现出显着的现实结果。