DIBS: 通过伪边界丰富和在线优化提升无标签视频的密集视频字幕

CVPRApr, 2024

DIBS: 通过伪边界丰富和在线优化提升无标签视频的密集视频字幕

DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement

Hao Wu, Huabin Liu, Yu Qiao, Xiao Sun

TL;DR我们提出了 Dive Into the BoundarieS (DIBS)，这是一种新颖的预训练框架，用于密集视频字幕生成（DVC），强调改善来自未标记视频的生成事件字幕的质量以及相关的伪事件边界。通过充分发挥多样性大型语言模型（LLMs）的能力，我们生成与 DVC 相关的丰富字幕候选项，并在几个精心设计的目标下优化相应的伪边界，考虑到多样性、事件中心性、时间排序和连贯性。此外，我们还引入了一种新颖的在线边界精化策略，通过反复改善训练过程中伪边界的质量。通过进行全面的实验来检验所提出的技术组件的有效性。利用大量未标记的视频数据，如 HowTo100M，我们在标准的 DVC 数据集如 YouCook2 和 ActivityNet 上取得了显著的进展。在大多数评估指标上，我们超过了先前的最先进方法 Vid2Seq，而且仅使用 Vid2Seq 用于预训练的 0.4% 未标记视频数据。

Abstract

We present dive into the boundaries (DIBS), a novel pretraining framework for dense video captioning (DVC), that elaborates on improving the quality of the →

dive into the boundaries dense video captioning generated event captions pseudo event boundaries unlabeled videos

发现论文，激发创造

密集视频字幕：技术、数据集和评估协议综述

使用 Dense Video Captioning (DVC) 技术，本文综述了在描述长视频时需要突出显示的相互关联事件、依赖关系、上下文、重叠事件、物体间的相互作用以及领域特定性等语义，同时讨论了 DVC 的子任务和它们的结果，涵盖视频特征提取、时间事件定位和密集字幕生成，还探讨了 DVC 所使用的数据集以及领域中的新挑战和未来趋势。

Nov, 2023

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

实时视频字幕

该研究介绍了一种新的在线方法，用于在视频流中生成密集的视频描述并解决在线场景中的挑战，该方法结合了可变形变换和时间滤波。通过在 ActivityNet Captions 数据集上进行实验评估，验证了该方法在实时响应和性能方面相对于现有离线方法的优越性，并提供了模型结果和融入了新型评估指标的评估工具包以鼓励进一步的 LVC 研究。

Jun, 2024

使用并行解码技术的端到端稠密视频字幕生成

本文提出了一种简单而有效的端到端稠密视频字幕生成框架 PDVC，其中通过在 transformer decoder 的顶部添加事件计数器，将原始视频精确地分割为多个事件片段，并在其基础上进行事件集合预测，从根本上提高了预测字幕的连贯性和可读性。

Aug, 2021

Vid2Seq：面向密集视频字幕生成的视觉语言模型的大规模预训练

本文介绍了 Vid2Seq，这是一种多模态单阶段密集事件字幕生成模型。该模型使用特殊的时间令牌扩展语言模型，可无缝预测事件边界和文本描述。我们利用未标记的叙述性视频重塑语音转录的句子边界，作为伪事件边界，并使用语音转录句子作为伪事件字幕，从而利用未标记的视频进行密集视频字幕生成的预训练，并且该模型在 YouCook2、ViTT 和 ActivityNet Captions 等多项密集视频字幕生成基准测试中实现了最优的性能。

Feb, 2023

基于上下文门控双向注意力融合的密集视频字幕生成

本研究提出一种双向提案方法、注意力融合和上下文门控机制，将提案与字幕模块结合到一个统一的框架中，以在活动网字幕数据集上实现相对增益超过 100％（Meteor 得分从 4.82 增加到 9.65）的优异表现。

Mar, 2018

视频中弱监督稠密事件字幕生成

本文提出一个无需时间片段注释的方法：针对视频中所有感兴趣事件的稠密描述，基于一一对应的假设，将该问题分解为事件字幕和句子定位的双重问题，并提出了一种循环系统来训练模型。通过大量实验结果证明了该方法在视频事件字幕和句子定位方面的有效性。

Dec, 2018

通用事件边界检测的端到端压缩视频表示学习

该研究提出了一种基于压缩视频表示学习的端到端事件边界检测新方法，该方法利用压缩域中的丰富信息进行特征提取和边界检测，并在 Kinetics-GEBD 数据集上进行了广泛的实验，取得了与最先进方法相当的结果，并具有更快的运行速度。

Mar, 2022

用于通用事件边界字幕生成的双流 Transformer

本文介绍了我们在 CVPR2022 Generic Event Boundary Captioning 竞赛中的冠军方案，提出了一种名为 Dual-Stream Transformer 的模型，利用三个预训练模型从不同颗粒度提取视频特征以辅助生成说说内容，设计了词级集成策略以提升生成质量，在 GEBC 测试集上取得了良好的效果。

Jul, 2022

端到端密集视频字幕生成

本文提出一种联合建模的方法，将稠密视频字幕的两个子任务共同作为一个序列生成任务，同时预测事件和相应的描述，并使用 YouCook2 和 ViTT 的实验结果表明了该方法的可行性和在大规模预训练模型中集成端到端密集视频字幕等复杂任务中的适用性。

Apr, 2022