本文提出了一种基于多模态循环神经网络 (m-RNN) 的模型,实现图像内容的生成式描述,模型包含句子的深度循环神经网络和图像的卷积神经网络两个子网络以及它们的多模态层,经验证在三个基准数据集上的表现优于现有方法,还可以应用于图像或句子的检索任务,比现有直接优化排名目标函数的方法取得了显著的性能提升。
Oct, 2014
通过序列到序列的循环神经网络模型,从图像中提取对象序列并引入顺序注意力层,将图像的顺序信息自然地转化为单词序列,在 MS COCO 数据集中超越了现有方法并且在评估服务中也取得了竞争性的结果。
Feb, 2017
本文在图像字幕生成方面,提出了一种仅利用卷积神经网络生成字幕的框架,通过并行计算,训练速度比基于 LSTM 的模型快 3 倍,同时在 MSCOCO 图像字幕数据集上获得了比 LSTM 更高的评估得分。
May, 2018
本文提出了一种多模态记忆模型 (M3),利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力,该方法在公开基准数据集上的实验证明,相比于最先进的方法,本文提出的方法在 BLEU 和 METEOR 方面表现较好。
Nov, 2016
利用多模态 Transformer 模型并结合多视角视觉特征来进行图像描述,这种方法能够同时捕捉到图像内部和图像与文本之间的关系,相较于业内先前方法显著提升了效果,是图像描述任务的最新成果。
May, 2019
本文提出了一种基于多模态随机递归神经网络(MS-RNN)的生成式视频字幕方法,利用基于拉丁超立方采样(LHS)的随机采样方法解决给定视频的不确定性问题,支持不同的句子生成,实验结果显示该方法优于现有技术,并提高了视频字幕的性能。
Aug, 2017
本文提出了一种使用多个编码器的循环融合网络 (RFNet) 来处理图像字幕生成问题,RFNet 可以利用多个编码器的输出之间的相互作用,生成新的、紧凑而且信息丰富的表示,验证实验表明,RFNet 对于图像字幕生成问题是有效的,并且取得了最新的最好结果。
Jul, 2018
本研究探索了图像及其基于语句的描述之间的双向映射,提出了使用递归神经网络学习该映射的方法。我们使用相同的模型生成新的描述句子,并重新构建与图像相关的可视化特征,同时使用新颖的递归视觉记忆来辅助语句生成和可视化特征重构。在生成新的图像描述任务中,我们的自动生成字幕被人类喜欢的比例超过了 19.8%。和使用类似的视觉特征方法相比,我们的结果在图像和语句检索任务上达到了同等或更好的效果。
Nov, 2014
本研究旨在利用预先训练的卷积神经网络,结合注意力机制和循环神经网络,将图像特征与语言模型相结合,实现图像描述生成。实验结果与现有先进方法相比,具有竞争性的性能。
Mar, 2022
本论文提出了多模态卷积神经网络 (m-CNNs),用于匹配图像和句子。该网络结构采用卷积架构来利用图像表示、单词组合和两种模态之间的匹配关系。实验结果表明,我们的 m-CNNs 可以有效地捕捉图像和句子匹配所需的信息,并在 Flickr30K 和 Microsoft COCO 数据库的双向图像和句子检索上取得了最先进的性能。
Apr, 2015