利用字幕的关注语义视频生成
本文介绍了使用循环神经网络(RNN)生成短视频文本描述的系统,利用静态图像特征和视频专属特征的RNN,我们研究了视觉内容分类器作为额外信息源的实用性,并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用,可以比单独利用它们表现更好。
Dec, 2015
本研究提出了一种视频片段分割、多帧生成多个盛传、并采用自然语言技术将其连接成故事式视频字幕的方法,实现丰富内容的视频字幕生成,结果表明该方法不需要显式输入视频级别特征即可提供丰富内容,与最新技术方法相同。
May, 2016
通过多任务学习模型,结合无监督视频预测和语言蕴涵生成任务,共享参数学习提取更丰富的视频编码器表示和更好的视频-标题解码器表示,显著提高视频字幕生成的性能,达到了多个标准数据集的最新水平。
Apr, 2017
本文中,我们提出了一个新颖的基于标题的时序生成对抗网络(TGANs-C)来生成视频,该网络结合了数据的语义和时间上的一致性。我们通过定性和定量实验验证了我们的提议,并展示了在给定标题的情况下生成逼真视频的能力。
Apr, 2018
本研究提出了一种基于序列学习的新方法,通过选择一系列鲜明的视频片段和产生连贯的句子描述来生成对给定视频的一个连贯段落描述。该方法在ActivityNet Captions数据集上表现出能够生成高质量段落描述的能力,比其他方法产生的描述更相关、更连贯和更简洁。
Jul, 2018
本篇文章提出了一种视觉特征编码技术,使用门控循环单元(GRUs)生成语义丰富的视频字幕,并在MSVD和MSR-VTT数据集上创造了新的METEOR和ROUGE_L度量标准的最新技术水平。
Feb, 2019
本文提出一种联合建模的方法,将稠密视频字幕的两个子任务共同作为一个序列生成任务,同时预测事件和相应的描述,并使用YouCook2和ViTT的实验结果表明了该方法的可行性和在大规模预训练模型中集成端到端密集视频字幕等复杂任务中的适用性。
Apr, 2022
通过使用MT和PVDC生成视频字幕,我们提出了一个从自动生成的视频字幕中提取语义元数据的框架。 我们的实验表明,可以从生成的字幕中提取实体,属性,实体之间的关系和视频类别。
Nov, 2022
我们提出了Video ReCap,一种递归视频字幕模型,可以处理时长从1秒到2小时的视频输入,并在多个层次结构水平输出视频字幕。通过利用不同的视频层次结构之间的协同作用,我们的递归视频-语言架构可以高效地处理长达数小时的视频。我们还通过增加8,267个手动收集的长范围视频摘要来引入Ego4D-HCap数据集。我们的递归模型可以灵活地生成不同层次结构的字幕,同时也适用于其他复杂的视频理解任务,如基于EgoSchema的VideoQA。
Feb, 2024
通过稠密和精确的字幕,在大视频-语言模型(LVLMs)的视频理解和文本-视频模型(T2VMs)的视频生成方面,我们提出了ShareGPT4Video系列,该系列包括40K GPT4V标注的各种长度和来源的视频稠密字幕,通过精心设计的数据过滤和注释策略进行开发,以及有效的任意视频字幕模型ShareCaptioner-Video和卓越的LVLM ShareGPT4Video-8B。
Jun, 2024