基于视觉转换器的人类中心时空视频定位

Nov, 2020

基于视觉转换器的人类中心时空视频定位

Human-centric Spatio-Temporal Video Grounding With Visual Transformers

Zongheng Tang, Yue Liao, Si Liu, Guanbin Li, Xiaojie Jin...

TL;DR本文介绍了一项新任务 —— 人体中心的时空视频定位（HC-STVG），并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers（STGVT）的基准方法，该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示，同时我们贡献了一个 HC-STVG 数据集，其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验，表明新提出的方法优于现有的基准方法。

Abstract

In this work, we introduce a novel task - humancentric spatio-temporal Video Grounding (HC-STVG). Unlike the existing referring expression tasks in images or videos, by focusing on humans, HC-STVG aims to localiz

humancentric spatio-temporal video grounding visual transformers hc-stvg dataset

发现论文，激发创造

上下文引导的时空视频定位

提出了一种上下文引导的时空视频定位方法（CG-STVG），通过挖掘视频中的实例上下文信息作为目标定位的辅助指导，并通过消除不相关或有害信息来改进实例上下文，从而提高目标的准确性。在三个基准测试上，包括 HCSTVG-v1/-v2 和 VidSTG，CG-STVG 在 m_tIoU 和 m_vIoU 上都取得了新的最优结果，显示了其有效性。

Jan, 2024

多形式句子的时空视频定位

本文研究了一种新的任务，即用于多形式句子的时空视频基础问题。提出了一种名为 Spatio-Temporal Graph Reasoning Network 的方法来解决这个问题，利用时空区域图来捕捉视频中物体的相关性。实验结果表明了本方法的有效性。

Jan, 2020

Video-GroundingDINO: 面向开放词汇的时空视频定位

该研究论文介绍了一种开放式语义和语境视频定位模型，通过使用预训练的空间定位模型，克服了固定词汇和有限训练数据的限制，取得了在闭合式和开放式语境下的卓越性能。

Dec, 2023

TubeDETR: 基于 Transformer 的时空视频锚定

提出了基于 Transformer 的 TubeDETR 模型，该模型能够高效地建模时空和多模态交互，用于解决视频中给定文本查询的时空定位问题，并且在视频定位任务上表现出色。

Mar, 2022

视频中的时序句子地位划分：调查与未来方向

该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了 TSGV 的多模态理解和交互技术，构建了 TSGV 技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。

Jan, 2022

UniVTG：面向统一的视频 - 语言时序定位

通过统一视频时序定位（Video Temporal Grounding）的各种标签和任务，提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练，并获得更强的定位能力，例如零样本时序定位。对三项任务（时间区间提取、重要片段检测和视频摘要）在七个数据集上的广泛实验证明了该框架的有效性和灵活性。

Jul, 2023

面向医学教学视频的视觉提示暂态问答

提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV)，该方法通过时间戳字幕作为文本输入，将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示，以帮助跨模态交互，实现更好的文本跨度定位和匹配，该方法在医学操作数据集 MedVidQA 上表现优异，超越了其他 SOTA 方法。

Mar, 2022

增强 2D-TAN: 一种用于人类中心的时空视频定位的两阶段方法

本研究提出了一种有效的两阶段方法，利用增强的 2D-TAN 对文本描述进行时间上的定位，同时使用 MDETR 模型生成每帧包围盒并设计了一组手工规则，筛选出与定位短语最匹配的包围盒。

Jun, 2021

视频中的视觉关系定位

本文介绍了一项新任务：视频中的视觉关系定位，目的是在视频中定位给定的主谓宾形式关系，以提供支持其他高级视频语言任务（例如视频语言基础和视频问答）。通过协同优化构建的两个区域序列以及关系关注和重构，我们进一步提出了通过视觉实体之间的空间注意力转移的消息传递机制以解决挑战。我们的模型不仅显着优于基线方法，而且能够产生具有视觉意义的事实以支持视觉基础。

Jul, 2020

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021