BriefGPT.xyz
Oct, 2014
用多模态递归神经网络来解释图像
Explain Images with Multimodal Recurrent Neural Networks
HTML
PDF
Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Alan L. Yuille
TL;DR
本文提出了一种基于多模态循环神经网络 (m-RNN) 的模型,实现图像内容的生成式描述,模型包含句子的深度循环神经网络和图像的卷积神经网络两个子网络以及它们的多模态层,经验证在三个基准数据集上的表现优于现有方法, 还可以应用于图像或句子的检索任务,比现有直接优化排名目标函数的方法取得了显著的性能提升。
Abstract
In this paper, we present a
multimodal
recurrent neural network
(m-RNN) model for generating novel sentence descriptions to explain the content of images. It directly models the probability distribution of genera
→