AutoTVG：一种面向时间视频定位的新型视觉语言预训练范式

Jun, 2024

AutoTVG：一种面向时间视频定位的新型视觉语言预训练范式

AutoTVG: A New Vision-language Pre-training Paradigm for Temporal Video Grounding

Xing Zhang, Jiaxi Gu, Haoyu Zhao, Shicong Wang, Hang Xu...

TL;DRAutoTVG 是一种新的视觉 - 语言预训练范式，旨在通过自动注释的未剪辑视频学习语义对齐和边界回归，从而在有限的监督下实现零样本测试中高竞争性的时态视频定位表现。

Abstract

temporal video grounding (TVG) aims to localize a moment from an untrimmed video given the language description. Since the annotation of TVG is labor-intensive, TVG under limited supervision has accepted attentio

temporal video grounding limited supervision vision-language pre-training autotvg zero-shot testing

发现论文，激发创造

UniVTG：面向统一的视频 - 语言时序定位

通过统一视频时序定位（Video Temporal Grounding）的各种标签和任务，提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练，并获得更强的定位能力，例如零样本时序定位。对三项任务（时间区间提取、重要片段检测和视频摘要）在七个数据集上的广泛实验证明了该框架的有效性和灵活性。

Jul, 2023

VTG-GPT: 使用 GPT 的免调整零样本视频时态定位

视频时间定位（VTG）目标是根据语言查询从未经修剪的视频中定位特定的时间段。我们提出了 VTG-GPT，这是一种基于 GPT 的零训练或微调的方法，以减少人为偏见和冗余信息，并实现与有监督方法相媲美的性能。

Mar, 2024

简洁的时间视频定位：多尺度邻近注意力与放大边界检测

提供了一个无花样的 TVG 模型，借助多尺度邻近注意和缩放边界检测两个核心模块，提高了在具有低语义噪声比的情况下提取最能区分信息的能力。结合端到端训练策略，该模型在不同的 TVG 基准上实现了竞争性的性能，同时具有更快的推理速度和较轻量的模型参数。

Jul, 2023

高效二维时间视频定位的文本 - 视觉指示

本文研究了时空视频定位（TVG）的问题，提出了一种新的文本 - 视觉提示框架（TVP）来优化视频编码器和语言编码器，有效地加强交叉模态特征融合并提高了 TVG 的表现。

Mar, 2023

视频中的时序句子地位划分：调查与未来方向

该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了 TSGV 的多模态理解和交互技术，构建了 TSGV 技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。

Jan, 2022

跨视频场景的多模态领域自适应用于时间视频定位

基于语言查询，通过在未剪辑视频中进行时间界定，暂时视频地基（TVG）旨在定位特定段落的时间边界。本研究在未标注目标场景中，通过引入对抗多模态域适应（AMDA）方法来自适应性调整模型的与场景相关的知识，并通过使用领域辨别器和对齐视频 - 查询对中的语义来解决领域差异和语义差距，以提高模型在新场景中的性能。

Dec, 2023

ViGT：在 Transformer 模型中具有可学习令牌的无需提议的视频定位

基于视觉和语言描述，本研究提出了一种新的边界回归范式来定位视频中的行为或事件，通过一个可学习的回归标记来预测时间边界，而非跨模态特征，取得了良好的效果并得到了进一步验证。

Aug, 2023

使用深度语义聚类进行无监督的时间视频锚点定位

本文提出一种无监督学习的方法 Deep Semantic Clustering Network，通过语言语义挖掘、视频语义聚合和前景注意力等步骤，实现对 Temporal video grounding 的定位，取得了竞争性的性能表现。

Jan, 2022

通过文本图像传播模型进行零样本视频编辑

一种名为 Ground-A-Video 的新型基于 groundings 的多属性视频编辑框架，通过引入跨帧门控注意力、调制交叉注意力和光流引导反转隐藏特征平滑，实现了无需训练的时间一致的多属性视频编辑，并在编辑准确度和帧一致性方面表现优于其他基准方法。

Oct, 2023

面向医学教学视频的视觉提示暂态问答

提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV)，该方法通过时间戳字幕作为文本输入，将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示，以帮助跨模态交互，实现更好的文本跨度定位和匹配，该方法在医学操作数据集 MedVidQA 上表现优异，超越了其他 SOTA 方法。

Mar, 2022