面向未剪辑视频的多样段落字幕

CVPRMay, 2021

Towards Diverse Paragraph Captioning for Untrimmed Videos

Yuqing Song, Shizhe Chen, Qin Jin

TL;DR本研究提出了一种基于自适应动态视频记忆的视频段落字幕生成模型，并采用多样性驱动的训练策略，通过关注模型的视觉焦点和提高多样性来生成具有连贯性和多样性特征的段落。实验证明该模型不但提高了生成准确度和多样性，而且还能有效地处理未剪辑的视频数据。

Abstract

video paragraph captioning aims to describe multiple events in untrimmed videos with descriptive paragraphs. Existing approaches mainly solve the problem in two steps: event detection and then event captioning. Such two-step manner makes the quality of generated paragraphs highly depen

video paragraph captioning dynamic video memories diversity-driven training untrimmed videos keyframe awareness

发现论文，激发创造

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

通过预训练将事件检测和字幕生成统一为序列生成

本文定义了事件检测为序列生成任务，提出了一种统一的预训练和微调框架，以自然地增强事件检测和字幕生成之间的相互关联。实验结果表明，我们的模型优于最先进的方法，并且在额外的大规模视频文本数据上进行预训练可以进一步提升性能。

Jul, 2022

密集视频字幕生成中的事件定位与描述

本文提出了一种新的密集视频字幕生成框架，该框架将时间上的事件提案的本地化和生成句子主体的合并，通过端到端的联合训练结构。这种模型在 ActivityNet Captions 数据集上的实验显示出了与现有技术相比的明显改进，创造了 12.96％的新的 METEOR 记录。

Apr, 2018

视频中弱监督稠密事件字幕生成

本文提出一个无需时间片段注释的方法：针对视频中所有感兴趣事件的稠密描述，基于一一对应的假设，将该问题分解为事件字幕和句子定位的双重问题，并提出了一种循环系统来训练模型。通过大量实验结果证明了该方法在视频事件字幕和句子定位方面的有效性。

Dec, 2018

清华大学人工智能联盟团队 2020 Activitynet 任务二技术报告：探索密集视频字幕的顺序事件检测

提出了一种用于密集视频字幕的事件序列生成模型，通过双向时间依赖在一次传递中生成事件边界来探索视频中的时间关系，避免了低效的两阶段提议生成，并在事件字幕模型中取得了最新的性能。

Jun, 2020

端到端密集视频字幕生成

本文提出一种联合建模的方法，将稠密视频字幕的两个子任务共同作为一个序列生成任务，同时预测事件和相应的描述，并使用 YouCook2 和 ViTT 的实验结果表明了该方法的可行性和在大规模预训练模型中集成端到端密集视频字幕等复杂任务中的适用性。

Apr, 2022

视频中的密集事件描述

本篇研究介绍了一种能够在视频中检测和描述事件的新模型，同时使用过去和未来事件的上下文信息来联合描述所有事件，并介绍了一个用于密集事件字幕的基准测试集 ActivityNet Captions。

May, 2017

密集视频字幕：技术、数据集和评估协议综述

使用 Dense Video Captioning (DVC) 技术，本文综述了在描述长视频时需要突出显示的相互关联事件、依赖关系、上下文、重叠事件、物体间的相互作用以及领域特定性等语义，同时讨论了 DVC 的子任务和它们的结果，涵盖视频特征提取、时间事件定位和密集字幕生成，还探讨了 DVC 所使用的数据集以及领域中的新挑战和未来趋势。

Nov, 2023

向前并讲述：视频描述的渐进式生成器

本研究提出了一种基于序列学习的新方法，通过选择一系列鲜明的视频片段和产生连贯的句子描述来生成对给定视频的一个连贯段落描述。该方法在 ActivityNet Captions 数据集上表现出能够生成高质量段落描述的能力，比其他方法产生的描述更相关、更连贯和更简洁。

Jul, 2018

多模态密集视频字幕

本文提出了一种新的密集视频字幕方法，它能够利用任何数量的多模态信息来描述事件，并使用自动语音识别系统获得音频和语音模态的文本描述，在将其视为单独的输入与视频帧和相应的音轨一起使用，并利用最近提出的 Transformer 体系结构将多模态输入数据转换为文本描述的机器翻译问题。作者在 ActivityNet Captions 数据集上测试了他们的模型，并进行了深入的分析。

Mar, 2020