联合对齐和回归的孪生学习用于弱监督视频段落定位

CVPRMar, 2024

联合对齐和回归的孪生学习用于弱监督视频段落定位

Siamese Learning with Joint Alignment and Regression for Weakly-Supervised Video Paragraph Grounding

Chaolei Tan, Jianhuang Lai, Wei-Shi Zheng, Jian-Fang Hu

TL;DR视频段落定位是视频语言理解中的新兴任务，其旨在从未修剪的视频中定位具有语义关系和时间顺序的多个句子。本研究提出并探索了弱监督视频段落定位，消除了对耗时且繁重的时间标签的需求。通过引入新颖的暹罗学习框架，我们联合学习跨模态特征对齐和无需时间戳标签的时间坐标回归，实现基于一阶定位的简洁弱监督视频段落定位。我们通过广泛实验验证了我们的范例具有卓越的实用性和灵活性，能够以高效的弱监督或半监督学习实现，并在使用相同或更强监督训练的最先进方法上表现出色。

Abstract

video paragraph grounding (VPG) is an emerging task in video-language understanding, which aims at localizing multiple sentences with semantic relations and temporal order from an untrimmed video. However, existing VPG approaches are heavily reliant on a considerable number of temporal

video paragraph grounding weakly-supervised siamese learning temporal localization cross-modal alignment

发现论文，激发创造

弱监督的时间文章定位

通过提出一个新的挑战性任务 Weakly-Supervised temporal Article Grounding (WSAG) 和一个有效的方法 DualMIL，可以在一个相关的多媒体资源 (文章和视频) 的不同层级之间定位相关句子。我们提出了第一个 WSAG 数据集 YouwikHow，利用 wikiHow 文章和 YouTube 视频中的多尺度描述，并证明了 DualMIL 的有效性。

Oct, 2022

视频中的时序句子地位划分：调查与未来方向

该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了 TSGV 的多模态理解和交互技术，构建了 TSGV 技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。

Jan, 2022

弱监督空时自然句子在视频中的基础

本文提出了一种新型任务，即利用注意力机制对视频中的自然语句进行弱监督的空时地定位，实现视频中与自然语句语义相符的空时地定位，同时引入多样性损失函数来加强可靠的实例 - 句子配对的匹配行为，并惩罚不可靠的行为，在 ImageNet 视频对象检测数据集上提供了一个新的基准数据集 VID-sentence，并广泛实现了实验结果，表明我们的模型优于基线方法。

Jun, 2019

更加注重细节：视频中句子的弱监督时间根据地

本文研究了弱监督下的视频句子时间定位问题，提出了一个两阶段模型，通过多尺度滑动窗口形成时间片段的间隔性建议，和在特征空间进行粗细匹配定位，最终在 ActivityNet Captions 数据集和 Charades-STA 数据集上取得良好的表现。

Jan, 2020

从文本查询中弱监督的视频片段检索

本文提出了一种学习弱标签的方法来解决文本 - 视频片段检索问题，并使用基于文本引导的注意力机制学习视频中的相关片段，该方法在两个基准数据集上获得了与监督式学习方法相当的性能。

Apr, 2019

面向医学教学视频的视觉提示暂态问答

提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV)，该方法通过时间戳字幕作为文本输入，将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示，以帮助跨模态交互，实现更好的文本跨度定位和匹配，该方法在医学操作数据集 MedVidQA 上表现优异，超越了其他 SOTA 方法。

Mar, 2022

分层本地 - 全局变压器用于时间句子定位

本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题，并将其应用于 temporal sentence grounding 任务，通过跨模态平行变压器解码器将其编码为最终的基础。

Aug, 2022

多形式句子的时空视频定位

本文研究了一种新的任务，即用于多形式句子的时空视频基础问题。提出了一种名为 Spatio-Temporal Graph Reasoning Network 的方法来解决这个问题，利用时空区域图来捕捉视频中物体的相关性。实验结果表明了本方法的有效性。

Jan, 2020

基于语义先验精细调整的弱监督视觉 - 文本链接

论文提出了一种基于弱化监督的视觉文本对齐模型 SPRM，通过组合输出的两个模块的预测结果学习文本短语和边界框之间的对应关系，达到了最先进的实验效果，并且在使用少量训练样例时也具有竞争性能。

May, 2023

利用非对齐文本进行弱监督视频表示学习

本文提出了一种基于 transformer，支持弱监督下视频理解的方法，主要包括多粒度损失函数、伪造的帧 - 句对应关系等。在视频序列验证和文本匹配实验中表现良好。

Mar, 2023