2020 VATEX 视频字幕挑战赛 NITS-VC 系统
本篇研究针对视频字幕模型的解码问题,通过三种技术改进模型的性能,包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明,相较于之前最先进的模型,我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果,其中在 MSVD 数据集上提升了高达 18%,在 MSR-VTT 数据集上提升了 3.5%。
Jan, 2020
本研究论文利用 LSTM 和 GRU 模型开发了一种新颖的编码器 - 解码器范例,用于尼泊尔视频字幕生成,利用 Devanagari 文字进行相关描述,并通过 BLEU、METOR 和 ROUGE 等指标评估其性能。
Dec, 2023
本文提出了一种新的视觉 - 语言特征模型 (VL feature),通过 Autoregressive Transformer-in-Transformer (TinT) 模型来捕获视频中的语义,同时提出了一种 VL 对比损失 (VL contrastive loss) 来保证嵌入特征与字幕语义匹配,实验证明该方法优于现有的最优方法。
Nov, 2022
本文介绍了使用循环神经网络(RNN)生成短视频文本描述的系统,利用静态图像特征和视频专属特征的 RNN,我们研究了视觉内容分类器作为额外信息源的实用性,并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用,可以比单独利用它们表现更好。
Dec, 2015
该论文提出了一种用于视频字幕生成的模型,该模型在时间和空间上均考虑了注意力机制,并通过后期融合策略将这两种机制结合起来,从而显著提高了生成字幕的性能,达到了 73.4 的 CIDEr 得分,并在 VATEX 视频字幕生成挑战赛上获得第二名。
Oct, 2019
本文展示了使用编码 - 解码模型来实现视频数据到文本字幕的多对多映射的方法,并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用 2 元 BLEU 分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。预测的字幕表明在视频动作方面具有普适性,即使在视频场景发生剧烈变化的情况下。还讨论了改进句子语法和准确性的模型架构变化。
Oct, 2023
该文章介绍了一种基于序列到序列模型和 LSTM 的视频描述方法,利用时间结构,将视频帧序列与单词序列相关联来生成视频描述,同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。
May, 2015
本文提出了一种新颖的密集视频字幕框架,它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成,后者利用强化学习进行训练,并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上,该方法在 ActivityNet Captions 数据集上取得了出色的表现。
Apr, 2019
我们提出了一种从压缩测量直接生成字幕的新型视频字幕生成模型 SnapCap,并通过使用预训练的 CLIP 来提取与语言相关的视觉表示,实验证明我们的模型在速度和字幕质量方面优于传统的视频字幕生成方法。
Jan, 2024