用多模态查询在视频中定位事件

Jun, 2024

Localizing Events in Videos with Multimodal Queries

Gengyuan Zhang, Mang Ling Ada Fok, Yan Xia, Yansong Tang, Daniel Cremers...

TL;DR本研究介绍了一个用于视频事件定位的多模态查询基准（ICQ），该基准以多模态语义查询为输入，包括一个描述事件的参考图像和一个用于调整图像语义的修正文本。通过对 4 种风格的参考图像和 5 种类型的修正文本进行系统评估，我们提出了 3 种适应方法，并评估了 10 种尺度的现有模型。我们认为这个基准是探索视频事件定位中多模态查询的初步步骤。

Abstract

video understanding is a pivotal task in the digital era, yet the dynamic and multievent nature of videos makes them labor-intensive and computationally demanding to process. Thus, localizing a specific event given a semantic query has gained importance in both user-oriented applicatio

video understanding event localization multimodal queries benchmark model performance

发现论文，激发创造

多模态事件图：走向多模态世界的事件中心理解

本研究提出了多模态事件关系的新任务，并开发了一个大规模数据集和一种基于外部知识库的弱监督多模态方法，为人工智能系统实现媒体理解和跨媒体事件关系建立提供了支持。

Jun, 2022

基于事件理解的视频数据集综述

通过调查 105 个需要事件理解能力的视频数据集，我们考虑它们对视频中鲁棒事件理解研究的贡献，并评估在这一研究领域中提出的视频事件提取任务，提出了基于调查结果的数据集策划和任务构建建议，特别强调视频事件的时间特性和视觉内容的歧义性。

Jun, 2024

跨模态事件相关的视频问答中的推理

通过引入密集描述模态作为辅助信息，提出了一种新颖的端到端可训练模型，Event-Correlated Graph Neural Networks（EC-GNNs），以从三种模态（描述、视频和问题）中执行跨模态推理，并通过多步推理收集问题导向和事件相关证据。

Dec, 2023

视频中时序句子定位和事件字幕生成的学习模态交互

通过跨模态交互学习，以更好地利用视频中每组模态之间的互补信息来提高事件字幕生成和时间句子定位任务的性能，从而在四个标准基准数据集上取得了最先进的性能。

Jul, 2020

视频的多模态分布语义嵌入进行零样本事件检测

本文提出了一种基于多模态分布语义嵌入的零样本事件检测方法，以视频为载体，将对象和动作等概念以及其他可用形式的多模态信息嵌入到分布语义空间中，实现了自由文本事件查询、概念属性的自动确定、视频检索等功能，在 TRECVID MED 大规模多媒体事件检测挑战中验证，有效性和速度均优于目前最先进的技术水平。

Dec, 2015

SPOT！重新审视视频语言模型用于事件理解

利用网络爬取的大规模视频 - 文本对数据作为弱监督，视频理解模型的能力在事件层面的差异中辨别和理解细粒度事件方面仍存在问题，通过提出 SPOT Prober 方法并进行实验证明，通过将操作后的事件描述插入作为难负样本能有效增强模型对事件理解的能力。

Nov, 2023

视频和文章的联合多媒体事件抽取

本篇论文介绍了一种新的视频多媒体事件提取（Video M2E2）任务以及两个创新组件，用于构建该任务的第一个系统。该方法能够从视频和文本文档中提取结构化事件信息，未来将会公开发布包括 860 对视频 - 文章对的新基准。实验结果证明了该方法在新基准数据集上的有效性。

Sep, 2021

视频语料库中的时刻定位层级多模态编码器

本文提出了一种名为 HAMMER 的 HierArchical Multi-Modal EncodeR 模型，通过在粗略的片段级别和细粒度的帧级别编码视频，从多个子任务中提取不同尺度的信息，从而解决了在未处理和未分段的视频中定位未定义段的挑战。实验结果表明，我们的方法优于以前的方法和强基线，是此任务的新的 state-of-the-art。

Nov, 2020

多查询视频检索

本篇论文主要探讨了多查询视频检索技术，可以有效弥补现有数据集中存在的不完善的注释问题，并提出了多个优化方法，以提高模型的检索能力及泛化性。

Jan, 2022

学习在大规模视频数据中本地化时间事件

该研究提出了两种方法来解决大规模视频数据中事件的时间定位问题，一种是采用梯度提升决策树模型，另一种是采用基于帧级数据、视频级数据和定位模型的深度学习模型组合，在第三届 Youtube-8M 视频识别挑战中获得第 5 名。

Oct, 2019