加强视频语言表示的结构时空对齐

Jun, 2024

加强视频语言表示的结构时空对齐

Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

Hao Fei, Shengqiong Wu, Meishan Zhang, Min Zhang, Tat-Seng Chua...

TL;DR通过精细化的结构化时空对齐学习方法（Finsta），将输入的文本和视频以细粒度场景图（SG）结构表示，进而统一为整体性 SG（HSG），从而加强语义和时序的视频 - 语言对齐，提高大规模视频 - 语言模型（VLMs）在各种下游任务中的性能。

Abstract

While pre-training large-scale video-language models (VLMs) has shown remarkable potential for various downstream video-language tasks, existing VLMs can still suffer from certain commonly seen limitations, e.g.,

pre-training video-language models fine-grained structural spatio-temporal alignment scene graph video-language grounding

发现论文，激发创造

通过分离空间 - 时间建模学习视频问答的细粒度视觉理解

该论文提出了一种新的视频 - 语言模型：去耦合的空间 - 时间编码器，通过将图像编码器中的空间模型独立于时间进行编码，将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频 - 语言模型学习视频 QA 中的时间关系以达到更好的视觉理解。

Oct, 2022

面向弱监督时空语言联系的细粒度语义对齐网络

本篇论文提出了一种新的候选不受限制的方法 ——Fine-grained Semantic Alignment Network（FSAN），用于弱监督的 Temporal Language Grounding 任务，在两个广泛使用的基准测试中取得了最先进的性能。

Oct, 2022

多形式句子的时空视频定位

本文研究了一种新的任务，即用于多形式句子的时空视频基础问题。提出了一种名为 Spatio-Temporal Graph Reasoning Network 的方法来解决这个问题，利用时空区域图来捕捉视频中物体的相关性。实验结果表明了本方法的有效性。

Jan, 2020

分层本地 - 全局变压器用于时间句子定位

本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题，并将其应用于 temporal sentence grounding 任务，通过跨模态平行变压器解码器将其编码为最终的基础。

Aug, 2022

STOA-VLP: 视频 - 语言预训练中物体和动作的时空建模

本文提出 STOA-VLP，一个在预训练阶段采用细粒度信息的框架，它在空间和时间维度上共同建模对象和操作信息，并设计了两个辅助任务来更好地将两种信息融入到视频 - 语言模型的预训练过程中。实验表明，该模型在视频字幕生成、文本 - 视频检索和视频问答等任务上取得了显著的效果提升。

Feb, 2023

流式视频中的时间语句定位

该研究旨在解决一项新颖任务 —— 流媒体视频中的时间句子定位，通过提出 TwinNet 结构和语言引导的特征压缩器，该方法在多个数据集上进行了广泛实验证明了其卓越性能。

Aug, 2023

时间感知的视频 - 语言预训练

本研究提出了一种文本 - 视频本地化预文本任务，以实现细粒度的时间和语义对齐，从而让训练模型能够准确感知给定文本描述的视频时间边界，并且实验结果表明该方法在各种基准测试中显著提高了最先进的性能。

Jan, 2023

视频中的时序句子地位划分：调查与未来方向

该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了 TSGV 的多模态理解和交互技术，构建了 TSGV 技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。

Jan, 2022

时间性句子定位的迭代对齐框架：渐进式参与指南

本文提出了一个迭代对齐网络 (IA-Net) 来解决 TSG 任务，通过多步推理来互动地对齐视觉和语言特征，通过学习参数对多模态特征进行填充来缓解非匹配的问题，并且在并行方式下增强基本的共同注意力机制。为了进一步校准由每个推理步骤引起的不匹配的注意力，我们还设计了一个校准模块。本文的 IA-Net 模型在三个具有挑战性的基准测试中表现出更好的性能。

Sep, 2021

联合对齐和回归的孪生学习用于弱监督视频段落定位

视频段落定位是视频语言理解中的新兴任务，其旨在从未修剪的视频中定位具有语义关系和时间顺序的多个句子。本研究提出并探索了弱监督视频段落定位，消除了对耗时且繁重的时间标签的需求。通过引入新颖的暹罗学习框架，我们联合学习跨模态特征对齐和无需时间戳标签的时间坐标回归，实现基于一阶定位的简洁弱监督视频段落定位。我们通过广泛实验验证了我们的范例具有卓越的实用性和灵活性，能够以高效的弱监督或半监督学习实现，并在使用相同或更强监督训练的最先进方法上表现出色。

Mar, 2024