TubeDETR: 基于 Transformer 的时空视频锚定

CVPRMar, 2022

TubeDETR: 基于 Transformer 的时空视频锚定

TubeDETR: Spatio-Temporal Video Grounding with Transformers

Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid

TL;DR提出了基于 Transformer 的 TubeDETR 模型，该模型能够高效地建模时空和多模态交互，用于解决视频中给定文本查询的时空定位问题，并且在视频定位任务上表现出色。

Abstract

We consider the problem of localizing a spatio-temporal tube in a video corresponding to a given text query. This is a challenging task th

spatio-temporal tube video text query transformer-based architecture video grounding task

发现论文，激发创造

使用 Transformer 进行端到端的视频文本识别

本研究基于 Transformer 序列建模，提出了一个简单而有效的端到端视频文本识别框架 TransDETR，它能够同时处理文本检测、跟踪和识别，通过两个主要优点：1) 在长序列中使用文本查询跟踪和识别每个文本，2) 在四个视频文本数据集上验证 TransDETR 具有最先进的性能，其中视频文本识别任务性能提高了 8.0％左右。

Mar, 2022

基于视觉转换器的人类中心时空视频定位

本文介绍了一项新任务 —— 人体中心的时空视频定位（HC-STVG），并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers（STGVT）的基准方法，该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示，同时我们贡献了一个 HC-STVG 数据集，其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验，表明新提出的方法优于现有的基准方法。

Nov, 2020

多模态 Transformer 在视频锚定中的设计追求

本篇论文提出了一种新型的端到端、多模态 Transformer 模型 ——GTR，通过将视频定位看作一个集合预测任务来实现，采用立方体嵌入层将原始视频转换为视觉令牌；在解码器中，采用新型的多头跨模态注意力机制来更好地融合两种模态，整个模型的优化采用 Many-to-One 匹配损失函数，实现了记录性能和较快的推理速度，获得更好的结果。

Sep, 2021

TransVOD: 基于空间 - 时间变换器的端到端视频目标检测

本文提出了一种基于 Transformer 和 DETR 的视频目标检测系统 TransVOD，通过时间 Transformer 和 Temporal Deformable Transformer Decoder 的设计，能够提高复杂的手工设计检测器的性能，同时在 ImageNet VID 数据集上获得了新的最佳结果。

Jan, 2022

多形式句子的时空视频定位

本文研究了一种新的任务，即用于多形式句子的时空视频基础问题。提出了一种名为 Spatio-Temporal Graph Reasoning Network 的方法来解决这个问题，利用时空区域图来捕捉视频中物体的相关性。实验结果表明了本方法的有效性。

Jan, 2020

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021

空间 - 时间增强变压器：用于多帧三维目标检测

STEMD 是一种基于 DETR 的新型端到端框架，用于实现多帧 3D 物体检测，其有效地捕获了特征和相应级别的时空依赖性，并引入了空间 - 时间图注意力网络，以解决对象之间的空间交互作用和复杂的时间依赖性问题，控制冗余检测结果。

Jul, 2023

分层本地 - 全局变压器用于时间句子定位

本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题，并将其应用于 temporal sentence grounding 任务，通过跨模态平行变压器解码器将其编码为最终的基础。

Aug, 2022

视频 Transformer 实现端到端时空动作定位

提出一种基于 Transformer、全端到端的模型，该模型直接处理输入视频并输出一系列边界框和每一帧的动作类别，能够使用稀疏边界框基础训练或完整灯管基础训练训练，且无需额外的前处理或后处理即可预测出高质量的结果，并在四个不同的局部性数据集上取得优异的实验成果。

Apr, 2023

视频表示学习中基于相关性引导的查询依赖校准用于时间标定

设计了一种基于相关性引导的检测变换器（CG-DETR），通过自适应的交叉关注层、推断视频剪辑和单词之间的细粒度相关性以及视频剪辑的文本参与度，对视频和文本查询之间的模态差距进行强大的跨模态交互，提高了瞬间检索和精彩时刻检测的性能。

Nov, 2023