语音视频定位的视频引导课程学习

MMSep, 2022

语音视频定位的视频引导课程学习

Video-Guided Curriculum Learning for Spoken Video Grounding

Yan Xia, Zhou Zhao, Shangwei Ye, Yang Zhao, Haoyuan Li...

TL;DR本文介绍了一种新的任务：口语视频 grounding（SVG），旨在将口语描述中的期望视频片段定位出来。该文通过电视测试数据表明，采用音频需要模型直接从原始语音中利用有用的音素和音节与视频相关信息。为了更好地模拟实际应用，还将环境噪声随机添加到这种语音音频中，用于纠正识别性音素并从噪声音频中提取视频相关信息，研发一种新的视频引导课程学习（VGCL）方法。经过广泛的实验证明，我们提出的视频引导课程学习可能促进预训练过程，从而获得一种相互的音频编码器，并显着促进了口语视频焦点任务的表现。

Abstract

In this paper, we introduce a new task, spoken video grounding (SVG), which aims to localize the desired video fragments from spoken language descriptions. Compared with using text, employing audio requires the model to directly exploit the useful phonemes and syllables related to the

spoken video grounding audio pre-training video-guided curriculum learning visual information extraction activitynet speech dataset

发现论文，激发创造

Video-GroundingDINO: 面向开放词汇的时空视频定位

该研究论文介绍了一种开放式语义和语境视频定位模型，通过使用预训练的空间定位模型，克服了固定词汇和有限训练数据的限制，取得了在闭合式和开放式语境下的卓越性能。

Dec, 2023

双重对比学习的干预式视频对齐

本文提出了一种新的干预视频地基范式，即基于结构因果模型和 do-calculus 的干预视频地基（IVG），并引入双重对比学习方法（DCL）来提高文本和视频之间的匹配度，实验证明了这些方法的有效性。

Jun, 2021

探索使用扩散模型的迭代细化来进行视频定位

DiffusionVG 是一个以扩散模型为基础的新框架，通过生成随机噪声输入逐步改进的逆向扩散过程，将视频定位作为一项条件生成任务，并在主流 Charades-STA 和 ActivityNet Captions 基准测试中展示了竞争性甚至优越的性能。

Oct, 2023

语言引导扩散模型用于视觉定位

通过去噪扩散建模的语言引导扩散框架（LG-DVG）提出了一种逐步推理的视觉定位方法，可持续改进查询 - 区域匹配，在跨模态对齐任务中以生成方式解决视觉定位，并在多个数据集上验证其超凡性能。

Aug, 2023

上下文引导的时空视频定位

提出了一种上下文引导的时空视频定位方法（CG-STVG），通过挖掘视频中的实例上下文信息作为目标定位的辅助指导，并通过消除不相关或有害信息来改进实例上下文，从而提高目标的准确性。在三个基准测试上，包括 HCSTVG-v1/-v2 和 VidSTG，CG-STVG 在 m_tIoU 和 m_vIoU 上都取得了新的最优结果，显示了其有效性。

Jan, 2024

无监督的视频视觉定位词汇翻译

利用视觉基础方法，通过学习不成对指导视频中讲解的语言产生共同的视觉表示方法。我们可以将这种共同的表示方法用于单词映射和跨语言翻译，尤其是对于 “视觉” 单词。同时，我们的基于视觉 - 文本的转换算法 MUVE 提高了非监督文本翻译技术的性能，特别是处理少见单词和低资源语言数据时。

Mar, 2020

使用深度语义聚类进行无监督的时间视频锚点定位

本文提出一种无监督学习的方法 Deep Semantic Clustering Network，通过语言语义挖掘、视频语义聚合和前景注意力等步骤，实现对 Temporal video grounding 的定位，取得了竞争性的性能表现。

Jan, 2022

基于实况视频描述

该文介绍了利用视频中物体的 bounding box 将描述影片的句子与影片中的客观证据联系起来，并给出了一个能够利用 bounding box 的词语注释的视频描述模型，其在视频描述、视频段落描述和图像描述上均表现出了最先进的性能和更好的联系性。

Dec, 2018

CLIP-VG: 利用伪语言标签自适应的 CLIP 自适应自学课程对视觉 grounding

本文提出了一种基于 CLIP-VG 的自我学习课程适应方法，通过利用伪语言标签来解决 VG 问题，以达到隐式知识利用和去噪。研究结果表明，该方法在单源和多源情况下都远优于现有的最先进的无监督 VG 方法 Pseudo-Q，甚至优于现有的弱监督方法。

May, 2023

AutoTVG：一种面向时间视频定位的新型视觉语言预训练范式

AutoTVG 是一种新的视觉 - 语言预训练范式，旨在通过自动注释的未剪辑视频学习语义对齐和边界回归，从而在有限的监督下实现零样本测试中高竞争性的时态视频定位表现。

Jun, 2024