本研究探索了图像及其基于语句的描述之间的双向映射,提出了使用递归神经网络学习该映射的方法。我们使用相同的模型生成新的描述句子,并重新构建与图像相关的可视化特征,同时使用新颖的递归视觉记忆来辅助语句生成和可视化特征重构。在生成新的图像描述任务中,我们的自动生成字幕被人类喜欢的比例超过了 19.8%。和使用类似的视觉特征方法相比,我们的结果在图像和语句检索任务上达到了同等或更好的效果。
Nov, 2014
本文提出了一种基于多模态循环神经网络的模型,用于生成图像标题,并在四个基准数据集上验证了该模型的有效性。
Dec, 2014
本文提出了一种基于循环神经网络和长短时记忆单元的句子嵌入模型,该模型能够自动侦测句子中关键词和主题,从而进行网络文档检索等艰难的语言处理任务,并在性能上显著优于现有的先进方法。
Feb, 2015
本论文提出了多模态卷积神经网络(m-CNNs),用于匹配图像和句子。该网络结构采用卷积架构来利用图像表示、单词组合和两种模态之间的匹配关系。实验结果表明,我们的m-CNNs可以有效地捕捉图像和句子匹配所需的信息,并在Flickr30K和Microsoft COCO数据库的双向图像和句子检索上取得了最先进的性能。
Apr, 2015
该研究比较了不同的语言模型方法在图像字幕生成中的优缺点,并使用与众不同的语言模型方法,结合这些方法在COCO数据集上取得了新的记录性能。
May, 2015
本文对于近三十年来产生和实践了重要的循环神经网络(RNN),LSTM和BRNN等模型的研究进行综述,旨在提供一个自成体系的最前沿阐述和历史视角,并引用了相关研究文献。
本研究旨在使用文本和视觉信息进行有效的单词嵌入训练和评估。研究人员提出了一个大规模数据集,其中包含300万语句,描述了来自Pinterest的超过4000万张图像。该研究还报道了一种基于RNN的多模态模型,通过在嵌入中整合视觉信息,该模型可以找到语义相似或相关的单词和短语。经验表明,共享策略对于学习这种多模态嵌入至关重要。
Nov, 2016
通过序列到序列的循环神经网络模型,从图像中提取对象序列并引入顺序注意力层,将图像的顺序信息自然地转化为单词序列,在MS COCO数据集中超越了现有方法并且在评估服务中也取得了竞争性的结果。
Feb, 2017
使用循环神经网络作为卷积滤波器的卷积神经网络在处理自然语言处理任务时具有更强的合成性和长期依赖性,并在Stanford Sentiment Treebank和两个答案句子选择数据集上取得了与最佳结果相当的效果。
Aug, 2018
文章提出了一种针对图像-文本匹配问题的解决方法,利用一种双通路递归神经网络(DP-RNN)处理对称的输入,通过提取对象顺序信息、对象关系、同时引入自注意力和跨模态联合注意力实现了图片和文本的相似度匹配,实验验证提出的方法在Flickr30K数据集上达到了最先进的性能表现,MS-COCO数据集也表现具有竞争力。
Feb, 2020