高效二维时间视频定位的文本 - 视觉指示

CVPRMar, 2023

高效二维时间视频定位的文本 - 视觉指示

Text-Visual Prompting for Efficient 2D Temporal Video Grounding

Yimeng Zhang, Xin Chen, Jinghan Jia, Sijia Liu, Ke Ding

TL;DR本文研究了时空视频定位（TVG）的问题，提出了一种新的文本 - 视觉提示框架（TVP）来优化视频编码器和语言编码器，有效地加强交叉模态特征融合并提高了 TVG 的表现。

Abstract

In this paper, we study the problem of temporal video grounding (TVG), which aims to predict the starting/ending time points of moments described by a text sentence within a long untrimmed video. Benefiting from fine-grained 3D visual features, the TVG techniques have achieved remarkab

temporal video grounding text-visual prompting framework 2d tvg model sparse 2d visual features temporal-distance iou loss

发现论文，激发创造

面向医学教学视频的视觉提示暂态问答

提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV)，该方法通过时间戳字幕作为文本输入，将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示，以帮助跨模态交互，实现更好的文本跨度定位和匹配，该方法在医学操作数据集 MedVidQA 上表现优异，超越了其他 SOTA 方法。

Mar, 2022

局部 - 全局视频文本交互的时间对齐

该论文提出了一种基于回归模型的方法，使用文本查询中的语义短语提取中间特征，以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互，通过在多个层面上从局部到全局利用上下文信息，有效地预测目标时间区间。实验证明，该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。

Apr, 2020

AutoTVG：一种面向时间视频定位的新型视觉语言预训练范式

AutoTVG 是一种新的视觉 - 语言预训练范式，旨在通过自动注释的未剪辑视频学习语义对齐和边界回归，从而在有限的监督下实现零样本测试中高竞争性的时态视频定位表现。

Jun, 2024

简洁的时间视频定位：多尺度邻近注意力与放大边界检测

提供了一个无花样的 TVG 模型，借助多尺度邻近注意和缩放边界检测两个核心模块，提高了在具有低语义噪声比的情况下提取最能区分信息的能力。结合端到端训练策略，该模型在不同的 TVG 基准上实现了竞争性的性能，同时具有更快的推理速度和较轻量的模型参数。

Jul, 2023

通过基于提示的定位在统一框架中重新思考三维密集字幕和视觉对齐

3DGCTR 是一个统一的框架，通过重新考虑 3DVG 模型的基于提示的定位能力，将轻量级字幕头集成到现有的 3DVG 网络中，通过提取提示中的定位信息，有效地提升了 3DDC 的能力，实现了同时进行多任务训练，互相增强性能。

Apr, 2024

Video-GroundingDINO: 面向开放词汇的时空视频定位

该研究论文介绍了一种开放式语义和语境视频定位模型，通过使用预训练的空间定位模型，克服了固定词汇和有限训练数据的限制，取得了在闭合式和开放式语境下的卓越性能。

Dec, 2023

利用全局时间语义知识的视频句子定位

利用伪查询特征加强领域间的联通，提高视觉和语言之间的特征对齐，以实现更好的时间句子定位。

Apr, 2024

使用深度语义聚类进行无监督的时间视频锚点定位

本文提出一种无监督学习的方法 Deep Semantic Clustering Network，通过语言语义挖掘、视频语义聚合和前景注意力等步骤，实现对 Temporal video grounding 的定位，取得了竞争性的性能表现。

Jan, 2022

UniVTG：面向统一的视频 - 语言时序定位

通过统一视频时序定位（Video Temporal Grounding）的各种标签和任务，提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练，并获得更强的定位能力，例如零样本时序定位。对三项任务（时间区间提取、重要片段检测和视频摘要）在七个数据集上的广泛实验证明了该框架的有效性和灵活性。

Jul, 2023

流式视频中的时间语句定位

该研究旨在解决一项新颖任务 —— 流媒体视频中的时间句子定位，通过提出 TwinNet 结构和语言引导的特征压缩器，该方法在多个数据集上进行了广泛实验证明了其卓越性能。

Aug, 2023