找到关注的焦点：面向事件的视频关键问题的 Transformer

ICCVAug, 2023

找到关注的焦点：面向事件的视频关键问题的 Transformer

Knowing Where to Focus: Event-aware Transformer for Video Grounding

Jinhyun Jang, Jungin Park, Jin Kim, Hyeongjun Kwon, Kwanghoon Sohn

TL;DR本文提出了一种事件感知的动态时刻查询方法，通过事件推理和时刻推理来预测视频中的时刻时间戳，实验证明了该方法在视频定位方面的有效性和高效性。

Abstract

Recent detr-based video grounding models have made the model directly predict moment timestamps without any hand-crafted components, such as a pre-defined proposal or non-maximum suppression, by learning moment q

detr-based video grounding moment timestamps event-aware dynamic moment query event reasoning moment reasoning

发现论文，激发创造

区域引导的时间句子定位的查询多样化转换器

在本文中，我们提出了一种基于区域导向的 Transformer（RGTR）用于时间句子锚定，通过对时刻查询进行多样化处理以消除重叠和冗余预测，并使用锚对作为时刻查询引入显式的区域导向，从而降低了优化困难并确保了最终预测结果的多样性，同时设计了一个 IoU 感知评分头来提高建议质量。在 QVHighlights、Charades-STA 和 TACoS 数据集上的广泛实验证明了 RGTR 的有效性，优于最先进的方法。

May, 2024

多模态 Transformer 在视频锚定中的设计追求

本篇论文提出了一种新型的端到端、多模态 Transformer 模型 ——GTR，通过将视频定位看作一个集合预测任务来实现，采用立方体嵌入层将原始视频转换为视觉令牌；在解码器中，采用新型的多头跨模态注意力机制来更好地融合两种模态，整个模型的优化采用 Many-to-One 匹配损失函数，实现了记录性能和较快的推理速度，获得更好的结果。

Sep, 2021

视频表示学习中基于相关性引导的查询依赖校准用于时间标定

设计了一种基于相关性引导的检测变换器（CG-DETR），通过自适应的交叉关注层、推断视频剪辑和单词之间的细粒度相关性以及视频剪辑的文本参与度，对视频和文本查询之间的模态差距进行强大的跨模态交互，提高了瞬间检索和精彩时刻检测的性能。

Nov, 2023

克服视觉和文本之间的弱对齐性以实现视频时刻检索

提出一种名为 BM-DETR 的背景感知时刻检测变压器模型，通过利用负查询和周围的背景来考虑相关性并提高时刻灵敏度，从而提高视频时刻检索（VMR）的效果和泛化能力。

Jun, 2023

利用多模态引导在长视频中定位时刻

本文研究了基于视频的语言表示的大规模 MAD 数据集。现有的基于句子的方法在长视频中表现效果不佳，本文提出了一种新的指导模型的方法，以提高基于句子的方法在长视频上的表现。该方法经实践证明，在 MAD 数据集上获得了更好的效果。

Feb, 2023

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

TubeDETR: 基于 Transformer 的时空视频锚定

提出了基于 Transformer 的 TubeDETR 模型，该模型能够高效地建模时空和多模态交互，用于解决视频中给定文本查询的时空定位问题，并且在视频定位任务上表现出色。

Mar, 2022

使用引导注意力在视频中进行自然语言查询的无需提议的时间时刻定位

本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法，以自然语言作为查询，解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件，实现从语言信息到视觉领域的转换，并评估了该方法在两个基准数据集上的表现优越性。

Aug, 2019

BAM-DETR: 视频中的时间句子定位的边界对齐时刻检测变换器

我们引入了一种新颖的基于边界的时序定位模型，通过设计 Boundary-Aligned Moment Detection Transformer（BAM-DETR）和质量优先的排序方法，实现了在时序句子理解任务中的新的最佳成果。

Nov, 2023

更加注重细节：视频中句子的弱监督时间根据地

本文研究了弱监督下的视频句子时间定位问题，提出了一个两阶段模型，通过多尺度滑动窗口形成时间片段的间隔性建议，和在特征空间进行粗细匹配定位，最终在 ActivityNet Captions 数据集和 Charades-STA 数据集上取得良好的表现。

Jan, 2020