基于常识的快速视频时间对齐细节文本对齐学习

MMApr, 2022

基于常识的快速视频时间对齐细节文本对齐学习

Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal Grounding

Ziyue Wu, Junyu Gao, Shucheng Huang, Changsheng Xu

TL;DR本文提出一种基于常识感知的跨模态对齐框架，通过从语料库中提取结构化语义信息，设计跨模态交互模块获得桥接式视觉和文本特征，并将其整合到共同的空间中进行快速视频时间定位。在两个具有挑战性的数据集上，证明该方法能够以高速运行，且表现优于现有的方法。

Abstract

Grounding temporal video segments described in natural language queries effectively and efficiently is a crucial capability needed in vision-and-language fields. In this paper, we deal with the fast video temporal grounding (FVTG) task, aiming at localizing the target segment with high speed and favorable accuracy. Most existing approaches adopt elaborately

video temporal grounding cross-modal alignment commonsense-guided representation language corpus matching score

发现论文，激发创造

一种简单而有效的视频时间对齐方法，具有交叉模态注意力

本文主要研究了利用语言引导定位视频中的相关片段的问题，提出一种简单直观的跨模态注意力模块 (CMA) 和针对此任务的新回归损失函数来提高定位精度，并在 Charades-STA 和 ActivityNet Captions 数据集上超越了目前最先进的方法。

Sep, 2020

UniVTG：面向统一的视频 - 语言时序定位

通过统一视频时序定位（Video Temporal Grounding）的各种标签和任务，提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练，并获得更强的定位能力，例如零样本时序定位。对三项任务（时间区间提取、重要片段检测和视频摘要）在七个数据集上的广泛实验证明了该框架的有效性和灵活性。

Jul, 2023

局部 - 全局视频文本交互的时间对齐

该论文提出了一种基于回归模型的方法，使用文本查询中的语义短语提取中间特征，以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互，通过在多个层面上从局部到全局利用上下文信息，有效地预测目标时间区间。实验证明，该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。

Apr, 2020

面向医学教学视频的视觉提示暂态问答

提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV)，该方法通过时间戳字幕作为文本输入，将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示，以帮助跨模态交互，实现更好的文本跨度定位和匹配，该方法在医学操作数据集 MedVidQA 上表现优异，超越了其他 SOTA 方法。

Mar, 2022

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

视频中的时序句子地位划分：调查与未来方向

该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了 TSGV 的多模态理解和交互技术，构建了 TSGV 技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。

Jan, 2022

利用全局时间语义知识的视频句子定位

利用伪查询特征加强领域间的联通，提高视觉和语言之间的特征对齐，以实现更好的时间句子定位。

Apr, 2024

SnAG: 视频定位的可扩展和准确性

在本文中，我们研究了跨模态融合对视频定位模型可扩展性的影响，通过分析发现，针对长视频和大量文本查询的情况，后期融合是一种更具成本效益的融合方案，并提出了一种基于视频的采样方案以实现高效训练。基于这些发现，我们提出了 SnAG，作为可扩展且准确的视频定位的简单基准模型，相较于现有的 CONE 方法在具有挑战性的 MAD 数据集上，在长视频上 SnAG 更准确且快速，同时在短视频上也取得了极具竞争力的结果。

Apr, 2024

检索、字幕、生成：视觉基础为文本生成模型增强常识

本研究探讨了利用图像中的多模态信息增强文本生成 Transformer 模型通用知识的有效方法。我们使用 BART 和 T5 进行了实验，并通过 VisCTG 方法成功地改善了通用知识、流畅性和特定性等问题的基线文本生成模型。

Sep, 2021

基于视觉转换器的人类中心时空视频定位

本文介绍了一项新任务 —— 人体中心的时空视频定位（HC-STVG），并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers（STGVT）的基准方法，该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示，同时我们贡献了一个 HC-STVG 数据集，其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验，表明新提出的方法优于现有的基准方法。

Nov, 2020