iPerceive: 将常识推理应用于多模态密集视频字幕和视频问答

Nov, 2020

iPerceive: 将常识推理应用于多模态密集视频字幕和视频问答

iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering

Aman Chadha, Gurneet Arora, Navpreet Kaloty

TL;DR提出利用上下文线索构建常识知识库推断视频中物体间因果关系的 iPerceive 框架，其中包括机器翻译问题，使用多种模态，如视听和语音等。测试集的结果显示，我们的方法提高了 DVC 和 VideoQA 的性能。

Abstract

Most prior art in visual understanding relies solely on analyzing the "what" (e.g., event recognition) and "where" (e.g., event localization), which in some cases, fails to describe correct contextual relationships between events or leads to incorrect underlying visual attention. Part

visual understanding causal relationships common-sense knowledge dense video captioning video question answering

发现论文，激发创造

跨模态事件相关的视频问答中的推理

通过引入密集描述模态作为辅助信息，提出了一种新颖的端到端可训练模型，Event-Correlated Graph Neural Networks（EC-GNNs），以从三种模态（描述、视频和问题）中执行跨模态推理，并通过多步推理收集问题导向和事件相关证据。

Dec, 2023

密集视频字幕生成与跨模态记忆检索

通过使用外部记忆库和跨模态视频 - 文本匹配方法，我们提出了一种新的框架来解决密集视频字幕的挑战，实现了事件定位和事件字幕任务的自动化。实验结果表明，在 ActivityNet Captions 和 YouCook2 数据集上，我们的模型表现出良好的性能，无需来自大型视频数据集的大量预训练。

Apr, 2024

密集视频字幕：技术、数据集和评估协议综述

使用 Dense Video Captioning (DVC) 技术，本文综述了在描述长视频时需要突出显示的相互关联事件、依赖关系、上下文、重叠事件、物体间的相互作用以及领域特定性等语义，同时讨论了 DVC 的子任务和它们的结果，涵盖视频特征提取、时间事件定位和密集字幕生成，还探讨了 DVC 所使用的数据集以及领域中的新挑战和未来趋势。

Nov, 2023

视频问答中基于密集字幕匹配和帧选择门控的时间定位

本文提出了一种视频问答模型，它有效地集成了多模态输入源并从中找到临时相关信息以回答问题，该模型包括多种设计方法，包括基于稠密图像标题的对象及其详细显著区域和动作识别，双重关注，跨集成和引入了带有人类重要性注释来更好地监督模型的两个损失函数的门控，这个模型在多个数据集上的表现优于现有的技术。

May, 2020

联合推断与视觉上下文下的密集字幕

本研究提出了一种基于 “联合推理” 和 “上下文融合” 的模型管道来解决密集字幕的两个关键挑战，并在 Visual Genome 上取得了目前最佳算法的相对增益 73％的最新成果。

Nov, 2016

基于事件理解的视频数据集综述

通过调查 105 个需要事件理解能力的视频数据集，我们考虑它们对视频中鲁棒事件理解研究的贡献，并评估在这一研究领域中提出的视频事件提取任务，提出了基于调查结果的数据集策划和任务构建建议，特别强调视频事件的时间特性和视觉内容的歧义性。

Jun, 2024

从表示到推理：面向视频问答的证据与常识推理

为了深化视频理解，包含描述、证据推理和常识推理等四类问题，我们提出了因果 - 视频问答任务及两步解决方案，发现最新 VideoQA 方法在描述方面表现强而在推理方面表现弱，希望 Causal-VidQA 能够引导视频理解研究从表示学习向深度推理发展。

May, 2022

简化密集视频字幕生成

本文提出了一种新颖的密集视频字幕框架，它通过显式建模视频中事件的时间依赖性并利用先前事件的视觉和语言上下文来实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成，后者利用强化学习进行训练，并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在大多数指标上，该方法在 ActivityNet Captions 数据集上取得了出色的表现。

Apr, 2019

Video2Commonsense: 生成通识描述以丰富视频字幕

通过生成视频常识描述（包括解释动机、影响和描述人物特点）的方法，结合开放式视频常识问答，可以提升通过字幕来理解视频的能力。

Mar, 2020

多模态密集视频字幕

本文提出了一种新的密集视频字幕方法，它能够利用任何数量的多模态信息来描述事件，并使用自动语音识别系统获得音频和语音模态的文本描述，在将其视为单独的输入与视频帧和相应的音轨一起使用，并利用最近提出的 Transformer 体系结构将多模态输入数据转换为文本描述的机器翻译问题。作者在 ActivityNet Captions 数据集上测试了他们的模型，并进行了深入的分析。

Mar, 2020