序列到序列 -- 视频到文本
本篇论文提出直接利用统一深度神经网络将视频转换为句子的方法,并通过将知识从含标记种类超过120万张图像和带字幕的超过100,000张图像中迁移而创建具有大型词汇库的开放域视频句子描述。通过与语言生成度量,主语,动词和宾语预测准确度以及人的评估进行比较,证明本方法的有效性。
Dec, 2014
这篇论文提出了一种基于循环神经网络和 3-D 卷积神经网络以及时间注意力机制的视频自动描述方法,并在Youtube2Text数据集上的BLEU和METEOR度量标准上超过了当前最先进的结果,并在更大更具挑战性的配对视频和自然语言描述数据集上进行了测试。
Feb, 2015
本文提出了一种名为LSTM-E的新型统一框架,它可以同时探索LSTM和视觉-语义嵌入的学习,以有效生成自然语言描述的视频内容,实验表明LSTM-E在生成自然语言句子方面的表现优于目前为止的最佳表现,对于预测SVO三元组也超过了几种最先进的技术。
May, 2015
本文介绍了使用循环神经网络(RNN)生成短视频文本描述的系统,利用静态图像特征和视频专属特征的RNN,我们研究了视觉内容分类器作为额外信息源的实用性,并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用,可以比单独利用它们表现更好。
Dec, 2015
本文提出了一种针对视频进行自动化重点帧或子镜头选择的新型监督学习技术,其将问题视为顺序数据上的结构化预测问题,主要想法是利用LSTM(长短时记忆),该专用网络类型可模拟视频摘要任务中包含的可变范围依赖性,详细分析证明了模型设计的合理性,通过引入领域适应技术,我们还介绍了应对训练复杂学习模型所需大量注释数据需求的技术。
May, 2016
本研究提出了一种基于序列学习的新方法,通过选择一系列鲜明的视频片段和产生连贯的句子描述来生成对给定视频的一个连贯段落描述。该方法在ActivityNet Captions数据集上表现出能够生成高质量段落描述的能力,比其他方法产生的描述更相关、更连贯和更简洁。
Jul, 2018
本文提出一种联合建模的方法,将稠密视频字幕的两个子任务共同作为一个序列生成任务,同时预测事件和相应的描述,并使用YouCook2和ViTT的实验结果表明了该方法的可行性和在大规模预训练模型中集成端到端密集视频字幕等复杂任务中的适用性。
Apr, 2022
本文展示了使用编码-解码模型来实现视频数据到文本字幕的多对多映射的方法,并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用2元BLEU分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。预测的字幕表明在视频动作方面具有普适性,即使在视频场景发生剧烈变化的情况下。还讨论了改进句子语法和准确性的模型架构变化。
Oct, 2023