简洁的时间视频定位：多尺度邻近注意力与放大边界检测

Jul, 2023

简洁的时间视频定位：多尺度邻近注意力与放大边界检测

No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention and Zoom-in Boundary Detection

Qi Zhang, Sipeng Zheng, Qin Jin

TL;DR提供了一个无花样的 TVG 模型，借助多尺度邻近注意和缩放边界检测两个核心模块，提高了在具有低语义噪声比的情况下提取最能区分信息的能力。结合端到端训练策略，该模型在不同的 TVG 基准上实现了竞争性的性能，同时具有更快的推理速度和较轻量的模型参数。

Abstract

temporal video grounding (TVG) aims to retrieve the time interval of a language query from an untrimmed video. A significant challenge in TVG is the low "semantic noise ratio (SNR)", which results in worse perfor

temporal video grounding semantic noise ratio multi-scale neighboring attention zoom-in boundary detection end-to-end training strategy

发现论文，激发创造

AutoTVG：一种面向时间视频定位的新型视觉语言预训练范式

AutoTVG 是一种新的视觉 - 语言预训练范式，旨在通过自动注释的未剪辑视频学习语义对齐和边界回归，从而在有限的监督下实现零样本测试中高竞争性的时态视频定位表现。

Jun, 2024

视频中的时序句子地位划分：调查与未来方向

该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了 TSGV 的多模态理解和交互技术，构建了 TSGV 技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。

Jan, 2022

UniVTG：面向统一的视频 - 语言时序定位

通过统一视频时序定位（Video Temporal Grounding）的各种标签和任务，提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练，并获得更强的定位能力，例如零样本时序定位。对三项任务（时间区间提取、重要片段检测和视频摘要）在七个数据集上的广泛实验证明了该框架的有效性和灵活性。

Jul, 2023

高效二维时间视频定位的文本 - 视觉指示

本文研究了时空视频定位（TVG）的问题，提出了一种新的文本 - 视觉提示框架（TVP）来优化视频编码器和语言编码器，有效地加强交叉模态特征融合并提高了 TVG 的表现。

Mar, 2023

SnAG: 视频定位的可扩展和准确性

在本文中，我们研究了跨模态融合对视频定位模型可扩展性的影响，通过分析发现，针对长视频和大量文本查询的情况，后期融合是一种更具成本效益的融合方案，并提出了一种基于视频的采样方案以实现高效训练。基于这些发现，我们提出了 SnAG，作为可扩展且准确的视频定位的简单基准模型，相较于现有的 CONE 方法在具有挑战性的 MAD 数据集上，在长视频上 SnAG 更准确且快速，同时在短视频上也取得了极具竞争力的结果。

Apr, 2024

使用深度语义聚类进行无监督的时间视频锚点定位

本文提出一种无监督学习的方法 Deep Semantic Clustering Network，通过语言语义挖掘、视频语义聚合和前景注意力等步骤，实现对 Temporal video grounding 的定位，取得了竞争性的性能表现。

Jan, 2022

VTG-GPT: 使用 GPT 的免调整零样本视频时态定位

视频时间定位（VTG）目标是根据语言查询从未经修剪的视频中定位特定的时间段。我们提出了 VTG-GPT，这是一种基于 GPT 的零训练或微调的方法，以减少人为偏见和冗余信息，并实现与有监督方法相媲美的性能。

Mar, 2024

$R^2$-Tuning：高效的图像到视频迁移学习用于视频时间绑定

在本文中，我们提出了一种轻量级的 $R^2$-Tuning 模型，通过逆向递归调整的方式，利用 CLIP 模型的各层次信息进行精细的时空建模，以实现视频时序定位的最先进性能。

Mar, 2024

更加注重细节：视频中句子的弱监督时间根据地

本文研究了弱监督下的视频句子时间定位问题，提出了一个两阶段模型，通过多尺度滑动窗口形成时间片段的间隔性建议，和在特征空间进行粗细匹配定位，最终在 ActivityNet Captions 数据集和 Charades-STA 数据集上取得良好的表现。

Jan, 2020

弱监督的时间文章定位

通过提出一个新的挑战性任务 Weakly-Supervised temporal Article Grounding (WSAG) 和一个有效的方法 DualMIL，可以在一个相关的多媒体资源 (文章和视频) 的不同层级之间定位相关句子。我们提出了第一个 WSAG 数据集 YouwikHow，利用 wikiHow 文章和 YouTube 视频中的多尺度描述，并证明了 DualMIL 的有效性。

Oct, 2022