清华大学人工智能联盟团队 2020 Activitynet 任务二技术报告：探索密集视频字幕的顺序事件检测

CVPRJun, 2020

清华大学人工智能联盟团队 2020 Activitynet 任务二技术报告：探索密集视频字幕的顺序事件检测

Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring Sequential Events Detection for Dense Video Captioning

PDF

Yuqing Song, Shizhe Chen, Yida Zhao, Qin Jin

TL;DR提出了一种用于密集视频字幕的事件序列生成模型，通过双向时间依赖在一次传递中生成事件边界来探索视频中的时间关系，避免了低效的两阶段提议生成，并在事件字幕模型中取得了最新的性能。

Abstract

Detecting meaningful events in an untrimmed video is essential for dense video captioning. In this work, we propose a novel and simple model for event sequence generation and explore temporal relationships of the event sequence in the video. The proposed model omits inefficient two-sta

dense video captioning event sequence generation temporal relationships one-pass model state-of-the-art performance

发现论文，激发创造

视频中密集字幕事件的系统报告: RUC+CMU

本文介绍了我们在 ActivityNet Dense Captioning in Video 任务（任务 3）中的系统，该任务中，我们提出了一种 proposal 排名模型，利用一组有效的特征表示进行 proposal 生成，并集成一系列具有上下文信息增强的 caption 模型，在预测的 proposal 上稳健生成 caption。我们的方法在密集视频字幕任务中取得了最先进的性能，在挑战测试集上获得了 8.529 的 METEOR 分数。

Jun, 2018

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

密集视频字幕生成中的事件定位与描述

本文提出了一种新的密集视频字幕生成框架，该框架将时间上的事件提案的本地化和生成句子主体的合并，通过端到端的联合训练结构。这种模型在 ActivityNet Captions 数据集上的实验显示出了与现有技术相比的明显改进，创造了 12.96％的新的 METEOR 记录。

Apr, 2018

通过预训练将事件检测和字幕生成统一为序列生成

本文定义了事件检测为序列生成任务，提出了一种统一的预训练和微调框架，以自然地增强事件检测和字幕生成之间的相互关联。实验结果表明，我们的模型优于最先进的方法，并且在额外的大规模视频文本数据上进行预训练可以进一步提升性能。

Jul, 2022

视频中的密集事件描述

本篇研究介绍了一种能够在视频中检测和描述事件的新模型，同时使用过去和未来事件的上下文信息来联合描述所有事件，并介绍了一个用于密集事件字幕的基准测试集 ActivityNet Captions。

May, 2017

2019 年 Activitynet 第三项任务：探索视频中复杂事件的背景

本研究系统地探索了不同的视频字幕模型，提出了五种上下文和两类事件字幕模型，并从准确性和多样性两个角度评估了它们对事件字幕的贡献，该提出的字幕模型被插入到我们的管道系统中，本系统在视频任务的密集字幕事件上取得了最新颖的表现。

Jul, 2019

端到端密集视频字幕生成

本文提出一种联合建模的方法，将稠密视频字幕的两个子任务共同作为一个序列生成任务，同时预测事件和相应的描述，并使用 YouCook2 和 ViTT 的实验结果表明了该方法的可行性和在大规模预训练模型中集成端到端密集视频字幕等复杂任务中的适用性。

Apr, 2022

视频中弱监督稠密事件字幕生成

本文提出一个无需时间片段注释的方法：针对视频中所有感兴趣事件的稠密描述，基于一一对应的假设，将该问题分解为事件字幕和句子定位的双重问题，并提出了一种循环系统来训练模型。通过大量实验结果证明了该方法在视频事件字幕和句子定位方面的有效性。

Dec, 2018

基于上下文门控双向注意力融合的密集视频字幕生成

本研究提出一种双向提案方法、注意力融合和上下文门控机制，将提案与字幕模块结合到一个统一的框架中，以在活动网字幕数据集上实现相对增益超过 100％（Meteor 得分从 4.82 增加到 9.65）的优异表现。

Mar, 2018

使用掩码变换器进行端到端的密集视频字幕生成

本研究提出了一种基于 Transformer 模型的端到端的视频描述生成方法来解决 dense video captioning 中语言描述与事件提案建立之间的直接联系问题，并通过 ActivityNet Captions 和 YouCookII 数据集的实验表明其性能提高。

Apr, 2018