上下文引导的时空视频定位

Jan, 2024

Context-Guided Spatio-Temporal Video Grounding

Xin Gu, Heng Fan, Yan Huang, Tiejian Luo, Libo Zhang

TL;DR提出了一种上下文引导的时空视频定位方法（CG-STVG），通过挖掘视频中的实例上下文信息作为目标定位的辅助指导，并通过消除不相关或有害信息来改进实例上下文，从而提高目标的准确性。在三个基准测试上，包括 HCSTVG-v1/-v2 和 VidSTG，CG-STVG 在 m_tIoU 和 m_vIoU 上都取得了新的最优结果，显示了其有效性。

Abstract

spatio-temporal video grounding (or STVG) task aims at locating a spatio-temporal tube for a specific instance given a text query. Despite advancements, current methods easily suffer the distractors or heavy object appearance variations in videos due to insufficient object information

spatio-temporal video grounding context-guided stvg instance context generation instance context refinement target localization

发现论文，激发创造

基于视觉转换器的人类中心时空视频定位

本文介绍了一项新任务 —— 人体中心的时空视频定位（HC-STVG），并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers（STGVT）的基准方法，该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示，同时我们贡献了一个 HC-STVG 数据集，其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验，表明新提出的方法优于现有的基准方法。

Nov, 2020

多形式句子的时空视频定位

本文研究了一种新的任务，即用于多形式句子的时空视频基础问题。提出了一种名为 Spatio-Temporal Graph Reasoning Network 的方法来解决这个问题，利用时空区域图来捕捉视频中物体的相关性。实验结果表明了本方法的有效性。

Jan, 2020

Video-GroundingDINO: 面向开放词汇的时空视频定位

该研究论文介绍了一种开放式语义和语境视频定位模型，通过使用预训练的空间定位模型，克服了固定词汇和有限训练数据的限制，取得了在闭合式和开放式语境下的卓越性能。

Dec, 2023

弱监督空时自然句子在视频中的基础

本文提出了一种新型任务，即利用注意力机制对视频中的自然语句进行弱监督的空时地定位，实现视频中与自然语句语义相符的空时地定位，同时引入多样性损失函数来加强可靠的实例 - 句子配对的匹配行为，并惩罚不可靠的行为，在 ImageNet 视频对象检测数据集上提供了一个新的基准数据集 VID-sentence，并广泛实现了实验结果，表明我们的模型优于基线方法。

Jun, 2019

TubeDETR: 基于 Transformer 的时空视频锚定

提出了基于 Transformer 的 TubeDETR 模型，该模型能够高效地建模时空和多模态交互，用于解决视频中给定文本查询的时空定位问题，并且在视频定位任务上表现出色。

Mar, 2022

语音视频定位的视频引导课程学习

本文介绍了一种新的任务：口语视频 grounding（SVG），旨在将口语描述中的期望视频片段定位出来。该文通过电视测试数据表明，采用音频需要模型直接从原始语音中利用有用的音素和音节与视频相关信息。为了更好地模拟实际应用，还将环境噪声随机添加到这种语音音频中，用于纠正识别性音素并从噪声音频中提取视频相关信息，研发一种新的视频引导课程学习（VGCL）方法。经过广泛的实验证明，我们提出的视频引导课程学习可能促进预训练过程，从而获得一种相互的音频编码器，并显着促进了口语视频焦点任务的表现。

Sep, 2022

面向医学教学视频的视觉提示暂态问答

提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV)，该方法通过时间戳字幕作为文本输入，将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示，以帮助跨模态交互，实现更好的文本跨度定位和匹配，该方法在医学操作数据集 MedVidQA 上表现优异，超越了其他 SOTA 方法。

Mar, 2022

UniVTG：面向统一的视频 - 语言时序定位

通过统一视频时序定位（Video Temporal Grounding）的各种标签和任务，提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练，并获得更强的定位能力，例如零样本时序定位。对三项任务（时间区间提取、重要片段检测和视频摘要）在七个数据集上的广泛实验证明了该框架的有效性和灵活性。

Jul, 2023

高效二维时间视频定位的文本 - 视觉指示

本文研究了时空视频定位（TVG）的问题，提出了一种新的文本 - 视觉提示框架（TVP）来优化视频编码器和语言编码器，有效地加强交叉模态特征融合并提高了 TVG 的表现。

Mar, 2023

视频中的时序句子地位划分：调查与未来方向

该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了 TSGV 的多模态理解和交互技术，构建了 TSGV 技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。

Jan, 2022