电影描述的长短故事
本研究探索了图像及其基于语句的描述之间的双向映射,提出了使用递归神经网络学习该映射的方法。我们使用相同的模型生成新的描述句子,并重新构建与图像相关的可视化特征,同时使用新颖的递归视觉记忆来辅助语句生成和可视化特征重构。在生成新的图像描述任务中,我们的自动生成字幕被人类喜欢的比例超过了 19.8%。和使用类似的视觉特征方法相比,我们的结果在图像和语句检索任务上达到了同等或更好的效果。
Nov, 2014
这篇论文提出了一种基于循环神经网络和 3-D 卷积神经网络以及时间注意力机制的视频自动描述方法,并在Youtube2Text数据集上的BLEU和METEOR度量标准上超过了当前最先进的结果,并在更大更具挑战性的配对视频和自然语言描述数据集上进行了测试。
Feb, 2015
该文章介绍了一种基于序列到序列模型和LSTM的视频描述方法,利用时间结构,将视频帧序列与单词序列相关联来生成视频描述,同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。
May, 2015
本文提出了一种名为LSTM-E的新型统一框架,它可以同时探索LSTM和视觉-语义嵌入的学习,以有效生成自然语言描述的视频内容,实验表明LSTM-E在生成自然语言句子方面的表现优于目前为止的最佳表现,对于预测SVO三元组也超过了几种最先进的技术。
May, 2015
本文介绍了使用循环神经网络(RNN)生成短视频文本描述的系统,利用静态图像特征和视频专属特征的RNN,我们研究了视觉内容分类器作为额外信息源的实用性,并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用,可以比单独利用它们表现更好。
Dec, 2015
本文探讨了如何从大型文本语料库中挖掘语言知识以帮助生成视频的自然语言描述,并将神经语言模型和分布式语义训练应用于最近的基于LSTM的视频描述体系结构。我们在一组Youtube视频和两个大型电影描述数据集上评估了我们的方法,在改善语法正确性的同时适度提高了描述质量。
Apr, 2016
提出一种新型的视频字幕生成框架Bidirectional Long-Short Term Memory,该框架综合保留了视频的信息,并在常用基准测试上验证了该框架的有效性。
Jun, 2016
本文提出了一种卷积图像字幕生成技术,并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能,同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析,提出了卷积语言生成方法的有力证据。
Nov, 2017