2019 年 Activitynet 第三项任务：探索视频中复杂事件的背景

CVPRJul, 2019

2019 年 Activitynet 第三项任务：探索视频中复杂事件的背景

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Shizhe Chen, Yuqing Song, Yida Zhao, Qin Jin, Zhaoyang Zeng...

TL;DR本研究系统地探索了不同的视频字幕模型，提出了五种上下文和两类事件字幕模型，并从准确性和多样性两个角度评估了它们对事件字幕的贡献，该提出的字幕模型被插入到我们的管道系统中，本系统在视频任务的密集字幕事件上取得了最新颖的表现。

Abstract

contextual reasoning is essential to understand events in long untrimmed videos. In this work, we systematically explore different captioning models with various contexts for the →

contextual reasoning captioning models dense-captioning events video task state-of-the-art performance

发现论文，激发创造

视频中的密集事件描述

本篇研究介绍了一种能够在视频中检测和描述事件的新模型，同时使用过去和未来事件的上下文信息来联合描述所有事件，并介绍了一个用于密集事件字幕的基准测试集 ActivityNet Captions。

May, 2017

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

清华大学人工智能联盟团队 2020 Activitynet 任务二技术报告：探索密集视频字幕的顺序事件检测

提出了一种用于密集视频字幕的事件序列生成模型，通过双向时间依赖在一次传递中生成事件边界来探索视频中的时间关系，避免了低效的两阶段提议生成，并在事件字幕模型中取得了最新的性能。

Jun, 2020

基于上下文门控双向注意力融合的密集视频字幕生成

本研究提出一种双向提案方法、注意力融合和上下文门控机制，将提案与字幕模块结合到一个统一的框架中，以在活动网字幕数据集上实现相对增益超过 100％（Meteor 得分从 4.82 增加到 9.65）的优异表现。

Mar, 2018

视频中密集字幕事件的系统报告: RUC+CMU

本文介绍了我们在 ActivityNet Dense Captioning in Video 任务（任务 3）中的系统，该任务中，我们提出了一种 proposal 排名模型，利用一组有效的特征表示进行 proposal 生成，并集成一系列具有上下文信息增强的 caption 模型，在预测的 proposal 上稳健生成 caption。我们的方法在密集视频字幕任务中取得了最先进的性能，在挑战测试集上获得了 8.529 的 METEOR 分数。

Jun, 2018

密集视频字幕生成中的事件定位与描述

本文提出了一种新的密集视频字幕生成框架，该框架将时间上的事件提案的本地化和生成句子主体的合并，通过端到端的联合训练结构。这种模型在 ActivityNet Captions 数据集上的实验显示出了与现有技术相比的明显改进，创造了 12.96％的新的 METEOR 记录。

Apr, 2018

视频中弱监督稠密事件字幕生成

本文提出一个无需时间片段注释的方法：针对视频中所有感兴趣事件的稠密描述，基于一一对应的假设，将该问题分解为事件字幕和句子定位的双重问题，并提出了一种循环系统来训练模型。通过大量实验结果证明了该方法在视频事件字幕和句子定位方面的有效性。

Dec, 2018

密集视频字幕：技术、数据集和评估协议综述

使用 Dense Video Captioning (DVC) 技术，本文综述了在描述长视频时需要突出显示的相互关联事件、依赖关系、上下文、重叠事件、物体间的相互作用以及领域特定性等语义，同时讨论了 DVC 的子任务和它们的结果，涵盖视频特征提取、时间事件定位和密集字幕生成，还探讨了 DVC 所使用的数据集以及领域中的新挑战和未来趋势。

Nov, 2023

密集视频字幕生成与跨模态记忆检索

通过使用外部记忆库和跨模态视频 - 文本匹配方法，我们提出了一种新的框架来解决密集视频字幕的挑战，实现了事件定位和事件字幕任务的自动化。实验结果表明，在 ActivityNet Captions 和 YouCook2 数据集上，我们的模型表现出良好的性能，无需来自大型视频数据集的大量预训练。

Apr, 2024

多模态密集视频字幕

本文提出了一种新的密集视频字幕方法，它能够利用任何数量的多模态信息来描述事件，并使用自动语音识别系统获得音频和语音模态的文本描述，在将其视为单独的输入与视频帧和相应的音轨一起使用，并利用最近提出的 Transformer 体系结构将多模态输入数据转换为文本描述的机器翻译问题。作者在 ActivityNet Captions 数据集上测试了他们的模型，并进行了深入的分析。

Mar, 2020