Vid2Seq：面向密集视频字幕生成的视觉语言模型的大规模预训练

CVPRFeb, 2023

Vid2Seq：面向密集视频字幕生成的视觉语言模型的大规模预训练

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

Antoine Yang, Arsha Nagrani, Paul Hongsuck Seo, Antoine Miech, Jordi Pont-Tuset...

TL;DR本文介绍了 Vid2Seq，这是一种多模态单阶段密集事件字幕生成模型。该模型使用特殊的时间令牌扩展语言模型，可无缝预测事件边界和文本描述。我们利用未标记的叙述性视频重塑语音转录的句子边界，作为伪事件边界，并使用语音转录句子作为伪事件字幕，从而利用未标记的视频进行密集视频字幕生成的预训练，并且该模型在 YouCook2、ViTT 和 ActivityNet Captions 等多项密集视频字幕生成基准测试中实现了最优的性能。

Abstract

In this work, we introduce vid2seq, a multi-modal single-stage dense event captioning model pretrained on narrated videos which are readily-available at scale. The →

vid2seq dense event captioning pretraining narrated videos state of the art

发现论文，激发创造

端到端密集视频字幕生成

本文提出一种联合建模的方法，将稠密视频字幕的两个子任务共同作为一个序列生成任务，同时预测事件和相应的描述，并使用 YouCook2 和 ViTT 的实验结果表明了该方法的可行性和在大规模预训练模型中集成端到端密集视频字幕等复杂任务中的适用性。

Apr, 2022

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

为密集视频字幕编写进行多模态预训练

本文介绍了在视频学习中生成元信息的困难性，提出了一种基于时间戳注释的新数据集 Video Timeline Tags（ViTT）以及采用多模态序列预训练策略来预训练和微调密集视频字幕模型，证明了该模型可以很好地泛化和适用于各种各样的教学视频。

Nov, 2020

序列到序列 -- 视频到文本

该文章介绍了一种基于序列到序列模型和 LSTM 的视频描述方法，利用时间结构，将视频帧序列与单词序列相关联来生成视频描述，同时该模型能够学习视频帧的时间结构和所生成句子的语言模型。

May, 2015

视频中弱监督稠密事件字幕生成

本文提出一个无需时间片段注释的方法：针对视频中所有感兴趣事件的稠密描述，基于一一对应的假设，将该问题分解为事件字幕和句子定位的双重问题，并提出了一种循环系统来训练模型。通过大量实验结果证明了该方法在视频事件字幕和句子定位方面的有效性。

Dec, 2018

流式视频密集字幕

提出了一种用于密集视频字幕生成的理想模型，能够处理长时间视频输入、预测丰富详细的文本描述，并且能在整个视频处理完成之前生成输出，通过引入聚类处理令其能够处理任意长的视频，并设计了一种流式解码算法使模型能够提前进行预测，实验证明了该模型在三个密集视频字幕生成基准数据集上优于现有的最先进模型。

Apr, 2024

通过预训练将事件检测和字幕生成统一为序列生成

本文定义了事件检测为序列生成任务，提出了一种统一的预训练和微调框架，以自然地增强事件检测和字幕生成之间的相互关联。实验结果表明，我们的模型优于最先进的方法，并且在额外的大规模视频文本数据上进行预训练可以进一步提升性能。

Jul, 2022

清华大学人工智能联盟团队 2020 Activitynet 任务二技术报告：探索密集视频字幕的顺序事件检测

提出了一种用于密集视频字幕的事件序列生成模型，通过双向时间依赖在一次传递中生成事件边界来探索视频中的时间关系，避免了低效的两阶段提议生成，并在事件字幕模型中取得了最新的性能。

Jun, 2020

多模态密集视频字幕

本文提出了一种新的密集视频字幕方法，它能够利用任何数量的多模态信息来描述事件，并使用自动语音识别系统获得音频和语音模态的文本描述，在将其视为单独的输入与视频帧和相应的音轨一起使用，并利用最近提出的 Transformer 体系结构将多模态输入数据转换为文本描述的机器翻译问题。作者在 ActivityNet Captions 数据集上测试了他们的模型，并进行了深入的分析。

Mar, 2020

视频中的密集事件描述

本篇研究介绍了一种能够在视频中检测和描述事件的新模型，同时使用过去和未来事件的上下文信息来联合描述所有事件，并介绍了一个用于密集事件字幕的基准测试集 ActivityNet Captions。

May, 2017