SnAG: 视频定位的可扩展和准确性

CVPRApr, 2024

SnAG: Scalable and Accurate Video Grounding

Fangzhou Mu, Sicheng Mo, Yin Li

TL;DR在本文中，我们研究了跨模态融合对视频定位模型可扩展性的影响，通过分析发现，针对长视频和大量文本查询的情况，后期融合是一种更具成本效益的融合方案，并提出了一种基于视频的采样方案以实现高效训练。基于这些发现，我们提出了 SnAG，作为可扩展且准确的视频定位的简单基准模型，相较于现有的 CONE 方法在具有挑战性的 MAD 数据集上，在长视频上 SnAG 更准确且快速，同时在短视频上也取得了极具竞争力的结果。

Abstract

temporal grounding of text descriptions in videos is a central problem in vision-language learning and video understanding. Existing metho

temporal grounding vision-language learning video understanding cross-modal fusion video-centric sampling

发现论文，激发创造

弱监督的时间文章定位

通过提出一个新的挑战性任务 Weakly-Supervised temporal Article Grounding (WSAG) 和一个有效的方法 DualMIL，可以在一个相关的多媒体资源 (文章和视频) 的不同层级之间定位相关句子。我们提出了第一个 WSAG 数据集 YouwikHow，利用 wikiHow 文章和 YouTube 视频中的多尺度描述，并证明了 DualMIL 的有效性。

Oct, 2022

简洁的时间视频定位：多尺度邻近注意力与放大边界检测

提供了一个无花样的 TVG 模型，借助多尺度邻近注意和缩放边界检测两个核心模块，提高了在具有低语义噪声比的情况下提取最能区分信息的能力。结合端到端训练策略，该模型在不同的 TVG 基准上实现了竞争性的性能，同时具有更快的推理速度和较轻量的模型参数。

Jul, 2023

基于常识的快速视频时间对齐细节文本对齐学习

本文提出一种基于常识感知的跨模态对齐框架，通过从语料库中提取结构化语义信息，设计跨模态交互模块获得桥接式视觉和文本特征，并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上，证明该方法能够以高速运行，且表现优于现有的方法。

Apr, 2022

CONE：一种针对长视频时间对齐的高效粗到细对齐框架

本文提出了一种名为 CONE 的窗口层级的粗细粒度多模态对齐框架，该框架通过使用对比学习进行识别候选窗口和排名候选时刻，从而提高视频时序定位的精确度和效率，在两个大规模视频时序定位基准测试中均取得了业界最佳成果。

Sep, 2022

Video-GroundingDINO: 面向开放词汇的时空视频定位

该研究论文介绍了一种开放式语义和语境视频定位模型，通过使用预训练的空间定位模型，克服了固定词汇和有限训练数据的限制，取得了在闭合式和开放式语境下的卓越性能。

Dec, 2023

一种简单而有效的视频时间对齐方法，具有交叉模态注意力

本文主要研究了利用语言引导定位视频中的相关片段的问题，提出一种简单直观的跨模态注意力模块 (CMA) 和针对此任务的新回归损失函数来提高定位精度，并在 Charades-STA 和 ActivityNet Captions 数据集上超越了目前最先进的方法。

Sep, 2020

利用多模态引导在长视频中定位时刻

本文研究了基于视频的语言表示的大规模 MAD 数据集。现有的基于句子的方法在长视频中表现效果不佳，本文提出了一种新的指导模型的方法，以提高基于句子的方法在长视频上的表现。该方法经实践证明，在 MAD 数据集上获得了更好的效果。

Feb, 2023

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

利用全局时间语义知识的视频句子定位

利用伪查询特征加强领域间的联通，提高视觉和语言之间的特征对齐，以实现更好的时间句子定位。

Apr, 2024

HawkEye: 训练以视频为基础的文本语言模型

我们提出了 HawkEye，这是第一个完全以文本形式进行时间视频定位的视频 - 文本 LLM，并构建了 InternVid-G，这是一个具有分段级字幕和负跨度的大规模视频 - 文本语料库，我们引入了两个新的时间感知型训练目标，以及一种粗粒度的视频片段表示方法，这使得 HawkEye 在时间视频定位方面表现更好，同时在其他视频 - 文本任务上与现有视频 - 文本 LLM 相当，验证了其卓越的视频 - 文本多模态理解能力。

Mar, 2024