流式视频密集字幕

CVPRApr, 2024

Streaming Dense Video Captioning

Xingyi Zhou, Anurag Arnab, Shyamal Buch, Shen Yan, Austin Myers...

TL;DR提出了一种用于密集视频字幕生成的理想模型，能够处理长时间视频输入、预测丰富详细的文本描述，并且能在整个视频处理完成之前生成输出，通过引入聚类处理令其能够处理任意长的视频，并设计了一种流式解码算法使模型能够提前进行预测，实验证明了该模型在三个密集视频字幕生成基准数据集上优于现有的最先进模型。

Abstract

An ideal model for dense video captioning -- predicting captions localized temporally in a video -- should be able to handle long input videos, predict rich, detailed textual descriptions, and be able to produce outputs before processing the entire video. Current state-of-the-art model

dense video captioning temporal localization memory module streaming decoding state-of-the-art improvement

发现论文，激发创造

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

端到端密集视频字幕生成

本文提出一种联合建模的方法，将稠密视频字幕的两个子任务共同作为一个序列生成任务，同时预测事件和相应的描述，并使用 YouCook2 和 ViTT 的实验结果表明了该方法的可行性和在大规模预训练模型中集成端到端密集视频字幕等复杂任务中的适用性。

Apr, 2022

基于编码器 - 解码器的长短期记忆（LSTM）视频字幕模型

本文展示了使用编码 - 解码模型来实现视频数据到文本字幕的多对多映射的方法，并讨论了数据预处理、模型构建和训练。通过对数据集的不同分割使用 2 元 BLEU 分数来评估字幕的准确性。通过特定的输出示例字幕表明模型在视频时间维度上具有通用性。预测的字幕表明在视频动作方面具有普适性，即使在视频场景发生剧烈变化的情况下。还讨论了改进句子语法和准确性的模型架构变化。

Oct, 2023

密集视频字幕生成与跨模态记忆检索

通过使用外部记忆库和跨模态视频 - 文本匹配方法，我们提出了一种新的框架来解决密集视频字幕的挑战，实现了事件定位和事件字幕任务的自动化。实验结果表明，在 ActivityNet Captions 和 YouCook2 数据集上，我们的模型表现出良好的性能，无需来自大型视频数据集的大量预训练。

Apr, 2024

电影对话：从密集令牌到稀疏记忆的长视频理解

视频理解系统 MovieChat 利用大型语言模型和视频基础模型，通过引入记忆机制解决了处理长视频时的计算复杂性、内存开销和长期时间连接等挑战。

Jul, 2023

实时视频字幕

该研究介绍了一种新的在线方法，用于在视频流中生成密集的视频描述并解决在线场景中的挑战，该方法结合了可变形变换和时间滤波。通过在 ActivityNet Captions 数据集上进行实验评估，验证了该方法在实时响应和性能方面相对于现有离线方法的优越性，并提供了模型结果和融入了新型评估指标的评估工具包以鼓励进一步的 LVC 研究。

Jun, 2024

递归字幕：对小时长视频的递归字幕

我们提出了 Video ReCap，一种递归视频字幕模型，可以处理时长从 1 秒到 2 小时的视频输入，并在多个层次结构水平输出视频字幕。通过利用不同的视频层次结构之间的协同作用，我们的递归视频 - 语言架构可以高效地处理长达数小时的视频。我们还通过增加 8,267 个手动收集的长范围视频摘要来引入 Ego4D-HCap 数据集。我们的递归模型可以灵活地生成不同层次结构的字幕，同时也适用于其他复杂的视频理解任务，如基于 EgoSchema 的 VideoQA。

Feb, 2024

Vid2Seq：面向密集视频字幕生成的视觉语言模型的大规模预训练

本文介绍了 Vid2Seq，这是一种多模态单阶段密集事件字幕生成模型。该模型使用特殊的时间令牌扩展语言模型，可无缝预测事件边界和文本描述。我们利用未标记的叙述性视频重塑语音转录的句子边界，作为伪事件边界，并使用语音转录句子作为伪事件字幕，从而利用未标记的视频进行密集视频字幕生成的预训练，并且该模型在 YouCook2、ViTT 和 ActivityNet Captions 等多项密集视频字幕生成基准测试中实现了最优的性能。

Feb, 2023

多模态密集视频字幕

本文提出了一种新的密集视频字幕方法，它能够利用任何数量的多模态信息来描述事件，并使用自动语音识别系统获得音频和语音模态的文本描述，在将其视为单独的输入与视频帧和相应的音轨一起使用，并利用最近提出的 Transformer 体系结构将多模态输入数据转换为文本描述的机器翻译问题。作者在 ActivityNet Captions 数据集上测试了他们的模型，并进行了深入的分析。

Mar, 2020

视频字幕解码器的深度挖掘

本篇研究针对视频字幕模型的解码问题，通过三种技术改进模型的性能，包括使用变分 Dropout 和层归一化改善过拟合问题、提出在线评估模型性能以选择最佳测试检查点的方法、提出专业学习的新训练策略。在 Microsoft Research Video Description Corpus (MSVD) 和 MSR-Video to Text (MSR-VTT) 数据集上进行的实验证明，相较于之前最先进的模型，我们的模型在 BLEU、CIDEr、METEOR 和 ROUGE-L 指标上获得了显著的成果，其中在 MSVD 数据集上提升了高达 18%，在 MSR-VTT 数据集上提升了 3.5%。

Jan, 2020