使用分层循环神经网络进行视频段落字幕生成
本研究探索了图像及其基于语句的描述之间的双向映射,提出了使用递归神经网络学习该映射的方法。我们使用相同的模型生成新的描述句子,并重新构建与图像相关的可视化特征,同时使用新颖的递归视觉记忆来辅助语句生成和可视化特征重构。在生成新的图像描述任务中,我们的自动生成字幕被人类喜欢的比例超过了 19.8%。和使用类似的视觉特征方法相比,我们的结果在图像和语句检索任务上达到了同等或更好的效果。
Nov, 2014
该文章介绍了一种基于序列到序列模型和LSTM的视频描述方法,利用时间结构,将视频帧序列与单词序列相关联来生成视频描述,同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。
May, 2015
本文介绍了使用循环神经网络(RNN)生成短视频文本描述的系统,利用静态图像特征和视频专属特征的RNN,我们研究了视觉内容分类器作为额外信息源的实用性,并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用,可以比单独利用它们表现更好。
Dec, 2015
本文提出一种生成整段文字描述图片的方法,相比仅仅用一句话进行描述,该方法能够提供更加细致以及连贯的故事情节。该方法使用了分层递归神经网络对图片中的语义区域以及自然语言进行建模并生成整段文字。在实验中该方法被证明是较为有效的。
Nov, 2016
本研究提出了一种基于序列学习的新方法,通过选择一系列鲜明的视频片段和产生连贯的句子描述来生成对给定视频的一个连贯段落描述。该方法在ActivityNet Captions数据集上表现出能够生成高质量段落描述的能力,比其他方法产生的描述更相关、更连贯和更简洁。
Jul, 2018
提出了一种记忆注意力循环网络用于视频字幕生成,可以在训练数据中探索词与其各种类似视觉上下文的全谱对应关系,从而实现对每个单词的更全面理解,并提高字幕生成质量。
May, 2019
本文提出了一种使用纯CNN模型生成可包含丰富细节的长段落视觉描述的方法,使用上下文信息的层次CNN架构,以及对抗性训练方案,以实现全面建模段落的目的,并在Stanford视觉段落数据集上获得了最先进的性能。
Apr, 2020
我们提出了一种新的方法Memory-Augmented Recurrent Transformer (MART),它使用记忆模块来增强Transformer的结构,以更好地预测下一句话(关于指代和重复),从而鼓励连贯的段落生成。实验证明,MART生成的段落字幕比基线方法更连贯,更少重复,并保持与输入视频事件的相关性。
May, 2020
我们提出了Video ReCap,一种递归视频字幕模型,可以处理时长从1秒到2小时的视频输入,并在多个层次结构水平输出视频字幕。通过利用不同的视频层次结构之间的协同作用,我们的递归视频-语言架构可以高效地处理长达数小时的视频。我们还通过增加8,267个手动收集的长范围视频摘要来引入Ego4D-HCap数据集。我们的递归模型可以灵活地生成不同层次结构的字幕,同时也适用于其他复杂的视频理解任务,如基于EgoSchema的VideoQA。
Feb, 2024