2020 VATEX 视频字幕挑战赛 NITS-VC 系统

CVPRJun, 2020

2020 VATEX 视频字幕挑战赛 NITS-VC 系统

NITS-VC System for VATEX Video Captioning Challenge 2020

Alok Singh, Thoudam Doren Singh, Sivaji Bandyopadhyay

TL;DR本文介绍了用于视频字幕挑战的框架，采用编码器 - 解码器的方法，其中使用 3D 卷积神经网络对视频进行编码，并使用两个 LSTM 递归网络进行解码，最终输出是两个 LSTM 的输出元素乘积，而此模型可以在公共和私人测试数据集上实现 BLEU 得分分别为 0.20 和 0.22。

Abstract

video captioning is process of summarising the content, event and action of the video into a short textual form which can be helpful in many research areas such as video guided machine translation, video sentiment analysis and providing aid to needy individual. In this paper, a system

video captioning encoder-decoder lstm c3d bleu

发现论文，激发创造

视频字幕解码器的深度挖掘

本篇研究针对视频字幕模型的解码问题，通过三种技术改进模型的性能，包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明，相较于之前最先进的模型，我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果，其中在 MSVD 数据集上提升了高达 18%，在 MSR-VTT 数据集上提升了 3.5%。

Jan, 2020

深度学习在视频字幕生成中的综述

本文介绍了视频字幕生成技术的研究现状和面临的挑战，重点讨论了基于深度学习的方法，涵盖了多种架构及其应用领域，如问答、检索等。

Apr, 2023

基于注意力机制的编码解码模型用于尼泊尔语视频字幕生成 (2023)

本研究论文利用 LSTM 和 GRU 模型开发了一种新颖的编码器 - 解码器范例，用于尼泊尔视频字幕生成，利用 Devanagari 文字进行相关描述，并通过 BLEU、METOR 和 ROUGE 等指标评估其性能。

Dec, 2023

VLTinT: 视觉语言双重 Transformer，用于连贯的视频段落字幕生成

本文提出了一种新的视觉 - 语言特征模型 (VL feature)，通过 Autoregressive Transformer-in-Transformer (TinT) 模型来捕获视频中的语义，同时提出了一种 VL 对比损失 (VL contrastive loss) 来保证嵌入特征与字幕语义匹配，实验证明该方法优于现有的最优方法。

Nov, 2022

基于帧和视频级特征以及视觉内容分类的循环网络视频字幕生成

本文介绍了使用循环神经网络（RNN）生成短视频文本描述的系统，利用静态图像特征和视频专属特征的 RNN，我们研究了视觉内容分类器作为额外信息源的实用性，并通过实验结果证明了密集轨迹视频特征和内容分类器输出的利用，可以比单独利用它们表现更好。

Dec, 2015

将时间和空间注意力融合在 VATEX 视频字幕挑战 2019 中

该论文提出了一种用于视频字幕生成的模型，该模型在时间和空间上均考虑了注意力机制，并通过后期融合策略将这两种机制结合起来，从而显著提高了生成字幕的性能，达到了 73.4 的 CIDEr 得分，并在 VATEX 视频字幕生成挑战赛上获得第二名。

Oct, 2019

基于编码器 - 解码器的长短期记忆（LSTM）视频字幕模型

本文展示了使用编码 - 解码模型来实现视频数据到文本字幕的多对多映射的方法，并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用 2 元 BLEU 分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。预测的字幕表明在视频动作方面具有普适性，即使在视频场景发生剧烈变化的情况下。还讨论了改进句子语法和准确性的模型架构变化。

Oct, 2023

序列到序列 -- 视频到文本

该文章介绍了一种基于序列到序列模型和 LSTM 的视频描述方法，利用时间结构，将视频帧序列与单词序列相关联来生成视频描述，同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。

May, 2015

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

SnapCap: 高效的快照压缩视频字幕

我们提出了一种从压缩测量直接生成字幕的新型视频字幕生成模型 SnapCap，并通过使用预训练的 CLIP 来提取与语言相关的视觉表示，实验证明我们的模型在速度和字幕质量方面优于传统的视频字幕生成方法。

Jan, 2024