VLG-Net: 视频语言图匹配网络用于视频 grounding

ICCVNov, 2020

VLG-Net: 视频语言图匹配网络用于视频 grounding

VLG-Net: Video-Language Graph Matching Network for Video Grounding

Mattia Soldan, Mengmeng Xu, Sisi Qu, Jesper Tegner, Bernard Ghanem

TL;DR本文提出了使用图神经网络来进行视频和文本信息的语义对齐，以识别语言查询相关的时间间隔，解决这个挑战性任务的关键是将其转化为一个基于算法的图匹配问题，并采用图匹配层进行跨模态上下文建模和多模态融合，使用视频 - 语言图匹配网络（VLG-Net）匹配视频和查询图，并使用掩码时刻注意力池将时刻候选项通过融合富有效果的片段特征进行生成。在 ActivityNet-Captions，TACoS 和 DiDeMo 三个常用数据集上，我们在带有语言查询的视频瞬间的时间本地化方面展示了优于现有技术水平的性能。

Abstract

grounding language queries in videos aims at identifying the time interval (or moment) semantically relevant to a language query. The solution to this challenging task demands understanding →

grounding language videos graph matching graph neural networks temporal localization

发现论文，激发创造

LLM4VG：大型语言模型对视频定位的评估

近年来，研究人员试图调查 LLM 在处理视频方面的能力，并提出了几种视频 LLM 模型。然而，LLM 在处理视频对齐（VG）方面的能力仍然不清楚，也没有在文献中进行探索。为了填补这一空白，本文提出了 LLM4VG 基准测试，对不同的 LLM 在视频对齐任务上的性能进行系统评估。基于我们提出的 LLM4VG，我们设计了大量实验，检查了两组视频 LLM 模型在视频对齐上的表现：（i）基于文本 - 视频对训练的视频 LLM（标记为 VidLLM），以及（ii）与预训练的视觉描述模型（如视频 / 图像字幕模型）结合的 LLM。我们提出了整合 VG 指令和来自不同类型生成器的描述的方法，包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于 VQA 的生成器。我们还对各种 VidLLM 进行了全面比较，并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论：（i）现有的 VidLLM 离实现令人满意的视频对齐性能还有很长的路要走，需要进一步微调这些模型以包含更多的与时间相关的视频任务；（ii）LLM 和视觉模型的组合显示出初步的视频对齐能力，通过采用更可靠的模型和进一步的提示指导，这种能力具有可观的改进潜力。

Dec, 2023

视频中的时序句子地位划分：调查与未来方向

该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了 TSGV 的多模态理解和交互技术，构建了 TSGV 技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。

Jan, 2022

基于视频的神经模块网络 (VGNMN) 应用于视频 - 语言任务

本论文提出了 Video-grounded Neural Module Network (VGNMN) 用于建模视频数据的信息提取过程，并在视频场景下的对话任务和视频问答基准测试上展示了良好的性能表现。

Apr, 2021

UniVTG：面向统一的视频 - 语言时序定位

通过统一视频时序定位（Video Temporal Grounding）的各种标签和任务，提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练，并获得更强的定位能力，例如零样本时序定位。对三项任务（时间区间提取、重要片段检测和视频摘要）在七个数据集上的广泛实验证明了该框架的有效性和灵活性。

Jul, 2023

LoGAN: 弱监督视频时刻检索的潜在图协同注意力网络

本研究提出了一种新的共现学习框架 (Latent Graph Co-Attention Network)，用于解决标注数据有限的情况下，如何更准确定位与自然语言查询相关的视频片段；通过实验发现，该方法相较以往方法取得了相当显著的进步

Sep, 2019

视频与语言联系定位的多级对齐训练方案

本文着眼于视频和语言之间的语义联系，提出了一种多级对齐训练方案，基于信息相似性从高层次的上下文到细粒度的语义，通过对称损失来对齐视频和语言的编码，从而在共享特征空间中确保相似信息紧密编码而不同语义的信息保持分开。我们的多级对齐训练可应用于各种视频和语言接地任务。连同任务特定的训练损失，我们的框架在多个视频 QA 和检索数据集上实现了与先前现有技术的可比较性能。

Apr, 2022

利用全局时间语义知识的视频句子定位

利用伪查询特征加强领域间的联通，提高视觉和语言之间的特征对齐，以实现更好的时间句子定位。

Apr, 2024

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019

RGNet：一个用于长视频的统一检索与定位网络

通过统一跨模态 RG-Encoder 和稀疏采样技术，RGNet 方法实现了对长视频进行端到端的特定时刻定位，从而超过了以往在长视频时间定位数据集 MAD 和 Ego4D 上的方法，展示了最先进的性能。

Dec, 2023

双重对比学习的干预式视频对齐

本文提出了一种新的干预视频地基范式，即基于结构因果模型和 do-calculus 的干预视频地基（IVG），并引入双重对比学习方法（DCL）来提高文本和视频之间的匹配度，实验证明了这些方法的有效性。

Jun, 2021