本研究探索了图像及其基于语句的描述之间的双向映射,提出了使用递归神经网络学习该映射的方法。我们使用相同的模型生成新的描述句子,并重新构建与图像相关的可视化特征,同时使用新颖的递归视觉记忆来辅助语句生成和可视化特征重构。在生成新的图像描述任务中,我们的自动生成字幕被人类喜欢的比例超过了 19.8%。和使用类似的视觉特征方法相比,我们的结果在图像和语句检索任务上达到了同等或更好的效果。
Nov, 2014
使用门控循环单元递归网络学习视频的感知特征,从深度卷积网络的各个层级提取感知特征,包括高级和低级特征,结合前者的特殊信息和后者的空间信息,使用改进的GRU模型控制模型参数的数量,并在人类动作识别和视频字幕生成任务中证明其有效性。
Nov, 2015
本文介绍了使用循环神经网络(RNN)生成短视频文本描述的系统,利用静态图像特征和视频专属特征的RNN,我们研究了视觉内容分类器作为额外信息源的实用性,并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用,可以比单独利用它们表现更好。
Dec, 2015
提出一种新型的视频字幕生成框架Bidirectional Long-Short Term Memory,该框架综合保留了视频的信息,并在常用基准测试上验证了该框架的有效性。
Jun, 2016
本文提出了一种新的视频字幕生成方法,利用多种视觉特征和语义属性的层次,采用LSTM网络进行句子生成,实现自动选取最突出的视觉特征或语义属性,有望提高字幕生成的精确度。实验结果表明,该框架胜过现有最先进的方法,并可进一步提升精度至近于人类水平。
Dec, 2016
该研究提出了一种网络架构,利用标题执行可变长度的语义视频生成。网络能够区分视频中的对象,动作和交互,并将它们与长期和短期依赖结合起来,以增量方式生成视频。网络通过学习潜在表示对视频进行无监督生成,并在执行其他任务时表现出了良好的能力,如动作识别和空时样式转移。
Aug, 2017
本文提出了一种卷积图像字幕生成技术,并在 MSCOCO 数据集上展示了其与基准模型相媲美的性能,同时具有更快的训练时间和更少的参数数量。作者还对其模型的优点进行了详细分析,提出了卷积语言生成方法的有力证据。
Nov, 2017
本文提出了一种新颖的设计,即TDConvED,它在视频字幕生成中充分利用编码器和解码器网络中的卷积,具有卷积块结构,在编码器中进一步配备时间变形卷积以实现时间采样的自由形变,并利用时间关注机制进行句子生成,在MSVD和MSR-VTT视频字幕生成数据集上进行了广泛实验,在与常规基于RNN的编码器解码器技术进行比较时获得更好的结果。
May, 2019
本文提出了一种全局-局部表示粒度框架(GL-RG)来生成视频字幕,通过显式利用来自不同视频范围的丰富视觉表示,设计了一个新颖的全局-局部编码器来产生丰富的语义词汇,以获得帧间视频内容的描述性粒度,采用增量训练策略组织模型学习,实验结果表明GL-RG在MSR-VTT和MSVD数据集上的性能显著优于最近的最先进方法。
May, 2022
本研究利用合成的教学数据对图像语言基准进行微调,生成高质量的视频标题,构建适应视频和语言的模型,并在多个视频-语言基准上取得了显著结果。
Jan, 2024