基于多模态信息的时间句子定位在长视频中的基础调度

Dec, 2023

基于多模态信息的时间句子定位在长视频中的基础调度

Grounding-Prompter: Prompting LLM with Multimodal Information for Temporal Sentence Grounding in Long Videos

Houlun Chen, Xin Wang, Hong Chen, Zihan Song, Jia Jia...

TL;DR通过使用多模态信息，我们提出了一种用于处理长视频中的 Temporal Sentence Grounding 任务的 Grounding-Prompter 方法，通过引导 LLM 进行 TSG，提高了推理能力和理解 TSG 任务的性能。

Abstract

temporal sentence grounding (TSG), which aims to localize moments from videos based on the given natural language queries, has attracted widespread attention. Existing works are mainly designed for short videos, failing to handle TSG in →

temporal sentence grounding long videos multimodal information grounding-prompter method tsg task understanding

发现论文，激发创造

分层本地 - 全局变压器用于时间句子定位

本文介绍了一种新的 Hierarchical Local-Global Transformer 模型来解决视频和文本之间的 fine-grained 语义对齐问题，并将其应用于 temporal sentence grounding 任务，通过跨模态平行变压器解码器将其编码为最终的基础。

Aug, 2022

视频中的时序句子地位划分：调查与未来方向

该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了 TSGV 的多模态理解和交互技术，构建了 TSGV 技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。

Jan, 2022

面向医学教学视频的视觉提示暂态问答

提出了一种视觉提示文本跨度本地化方法 (VPTSL) 来解决视频中的时域回答接地问题 (TAGV)，该方法通过时间戳字幕作为文本输入，将视觉突出特征提示到预训练的语言模型 (PLM) 中来增强联合语义表示，以帮助跨模态交互，实现更好的文本跨度定位和匹配，该方法在医学操作数据集 MedVidQA 上表现优异，超越了其他 SOTA 方法。

Mar, 2022

利用全局时间语义知识的视频句子定位

利用伪查询特征加强领域间的联通，提高视觉和语言之间的特征对齐，以实现更好的时间句子定位。

Apr, 2024

流式视频中的时间语句定位

该研究旨在解决一项新颖任务 —— 流媒体视频中的时间句子定位，通过提出 TwinNet 结构和语言引导的特征压缩器，该方法在多个数据集上进行了广泛实验证明了其卓越性能。

Aug, 2023

利用多模态引导在长视频中定位时刻

本文研究了基于视频的语言表示的大规模 MAD 数据集。现有的基于句子的方法在长视频中表现效果不佳，本文提出了一种新的指导模型的方法，以提高基于句子的方法在长视频上的表现。该方法经实践证明，在 MAD 数据集上获得了更好的效果。

Feb, 2023

高效二维时间视频定位的文本 - 视觉指示

本文研究了时空视频定位（TVG）的问题，提出了一种新的文本 - 视觉提示框架（TVP）来优化视频编码器和语言编码器，有效地加强交叉模态特征融合并提高了 TVG 的表现。

Mar, 2023

减少视觉和语言偏见以进行时间性句子定位

本文提出了一种消除多媒体信息检索中选择偏差的 Debiasing-TSG（D-TSG）模型，实现在常见和罕见情况下的 Temporal sentence grounding，在三个基准数据集上取得了最先进的表现。

Jul, 2022

从叙述性自我视频中学习时态句子配准

通过学习和合并剪辑，提高在长时录像中通过时间定位句子的准确性。

Oct, 2023

基于记忆的语义学习网络用于时序句子定位

提出了一种名为记忆引导语义学习网络（MGSL-Net）的内存增强网络来学习和记忆 TSG 任务中常见且罕见的内容，通过动态地关联常见和罕见情况，缓解模型忘记的问题，并在测试阶段通过检索存储的记忆来增强罕见情况，实现更好的泛化。

Jan, 2022