本文提出了一种多模态学习的编码器-解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用LSTM进行句子编码,该模型在Flickr8K和Flickr30K数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。
Nov, 2014
本篇论文提出直接利用统一深度神经网络将视频转换为句子的方法,并通过将知识从含标记种类超过120万张图像和带字幕的超过100,000张图像中迁移而创建具有大型词汇库的开放域视频句子描述。通过与语言生成度量,主语,动词和宾语预测准确度以及人的评估进行比较,证明本方法的有效性。
Dec, 2014
本文提出了一种基于循环神经网络和长短时记忆单元的句子嵌入模型,该模型能够自动侦测句子中关键词和主题,从而进行网络文档检索等艰难的语言处理任务,并在性能上显著优于现有的先进方法。
Feb, 2015
该文章介绍了一种基于序列到序列模型和LSTM的视频描述方法,利用时间结构,将视频帧序列与单词序列相关联来生成视频描述,同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。
May, 2015
本文研究使用图像及视频描述辅助盲人及人机交互的应用。通过使用预训练的对象分类器CNNs以及LSTMs,学习生成描述的算法,并在MPII-MD数据集上获得了目前最佳性能。
Jun, 2015
本文探讨了如何从大型文本语料库中挖掘语言知识以帮助生成视频的自然语言描述,并将神经语言模型和分布式语义训练应用于最近的基于LSTM的视频描述体系结构。我们在一组Youtube视频和两个大型电影描述数据集上评估了我们的方法,在改善语法正确性的同时适度提高了描述质量。
Apr, 2016
该研究旨在基于自然语言查询进行视频检索,并采用嵌入模型进行检索任务的训练,试图通过图像搜索以及嵌入模型的应用使 fine-grained 视觉概念得到消歧,最终在视频和句子检索任务中实现了明显的改进,并取得了与当前最先进技术相媲美的描述生成性能。
Aug, 2016
本文提出了Key-Value Memory Networks应用于多模态设置的方法,以及一种新的键寻址机制,将视频字幕生成问题自然地分解为视觉和语言端,将其作为键-值对处理,并在寻址模式下提出了一种递归关注的方法来捕捉语境信息,通过实验发现,这种方法可以提高BLEU@4,METEOR得分,并实现了与最先进方法竞争性能。
Nov, 2016
本文提出了一种深层网络模型LSTM-TSA,加入转移学习的思想,利用从图像和视频中学到的语义属性帮助视频描述生成,在三个公共数据集上的结果超过了现有方法。
该论文提出了统一的视觉语义嵌入方法,采用对比学习的方法从仅有的图像-标题对中对不同水平的概念进行对齐,对于句子中出现的语义组件进行了有效处理,证明该方法具有鲁棒性和可靠性。
Apr, 2019