利用多模态引导在长视频中定位时刻

Feb, 2023

利用多模态引导在长视频中定位时刻

Localizing Moments in Long Video Via Multimodal Guidance

Wayner Barrios, Mattia Soldan, Fabian Caba Heilbron, Alberto Mario Ceballos-Arroyo, Bernard Ghanem

TL;DR本文研究了基于视频的语言表示的大规模 MAD 数据集。现有的基于句子的方法在长视频中表现效果不佳，本文提出了一种新的指导模型的方法，以提高基于句子的方法在长视频上的表现。该方法经实践证明，在 MAD 数据集上获得了更好的效果。

Abstract

The recent introduction of the large-scale long-form mad dataset for language grounding in videos has enabled researchers to investigate the performance of current state-of-the-art methods in the →

language grounding mad dataset long-form video guidance model

发现论文，激发创造

基于多模态信息的时间句子定位在长视频中的基础调度

通过使用多模态信息，我们提出了一种用于处理长视频中的 Temporal Sentence Grounding 任务的 Grounding-Prompter 方法，通过引导 LLM 进行 TSG，提高了推理能力和理解 TSG 任务的性能。

Dec, 2023

一种简单而有效的视频时间对齐方法，具有交叉模态注意力

本文主要研究了利用语言引导定位视频中的相关片段的问题，提出一种简单直观的跨模态注意力模块 (CMA) 和针对此任务的新回归损失函数来提高定位精度，并在 Charades-STA 和 ActivityNet Captions 数据集上超越了目前最先进的方法。

Sep, 2020

找到关注的焦点：面向事件的视频关键问题的 Transformer

本文提出了一种事件感知的动态时刻查询方法，通过事件推理和时刻推理来预测视频中的时刻时间戳，实验证明了该方法在视频定位方面的有效性和高效性。

Aug, 2023

端到端多模式视频时间定位

本文提出了一种基于多模态框架的文本指导视频时间地基方法，采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习，在 Charades-STA 和 ActivityNet Captions 数据集上实验表明，该方法表现优越。

Jul, 2021

多模态 Transformer 在视频锚定中的设计追求

本篇论文提出了一种新型的端到端、多模态 Transformer 模型 ——GTR，通过将视频定位看作一个集合预测任务来实现，采用立方体嵌入层将原始视频转换为视觉令牌；在解码器中，采用新型的多头跨模态注意力机制来更好地融合两种模态，整个模型的优化采用 Many-to-One 匹配损失函数，实现了记录性能和较快的推理速度，获得更好的结果。

Sep, 2021

使用引导注意力在视频中进行自然语言查询的无需提议的时间时刻定位

本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法，以自然语言作为查询，解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件，实现从语言信息到视觉领域的转换，并评估了该方法在两个基准数据集上的表现优越性。

Aug, 2019

LLM4VG：大型语言模型对视频定位的评估

近年来，研究人员试图调查 LLM 在处理视频方面的能力，并提出了几种视频 LLM 模型。然而，LLM 在处理视频对齐（VG）方面的能力仍然不清楚，也没有在文献中进行探索。为了填补这一空白，本文提出了 LLM4VG 基准测试，对不同的 LLM 在视频对齐任务上的性能进行系统评估。基于我们提出的 LLM4VG，我们设计了大量实验，检查了两组视频 LLM 模型在视频对齐上的表现：（i）基于文本 - 视频对训练的视频 LLM（标记为 VidLLM），以及（ii）与预训练的视觉描述模型（如视频 / 图像字幕模型）结合的 LLM。我们提出了整合 VG 指令和来自不同类型生成器的描述的方法，包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于 VQA 的生成器。我们还对各种 VidLLM 进行了全面比较，并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论：（i）现有的 VidLLM 离实现令人满意的视频对齐性能还有很长的路要走，需要进一步微调这些模型以包含更多的与时间相关的视频任务；（ii）LLM 和视觉模型的组合显示出初步的视频对齐能力，通过采用更可靠的模型和进一步的提示指导，这种能力具有可观的改进潜力。

Dec, 2023

自然语言视频时刻定位

通过提出 Moment Context Network 来定位自然语言查询中的视频段，并通过构建 Distinct Describable Moments 数据集实现对局部视屏段的描述。

Aug, 2017

SnAG: 视频定位的可扩展和准确性

在本文中，我们研究了跨模态融合对视频定位模型可扩展性的影响，通过分析发现，针对长视频和大量文本查询的情况，后期融合是一种更具成本效益的融合方案，并提出了一种基于视频的采样方案以实现高效训练。基于这些发现，我们提出了 SnAG，作为可扩展且准确的视频定位的简单基准模型，相较于现有的 CONE 方法在具有挑战性的 MAD 数据集上，在长视频上 SnAG 更准确且快速，同时在短视频上也取得了极具竞争力的结果。

Apr, 2024

MAD: 电影音频描述视频语言基础数据集

该论文提出了 MAD 基准测试，通过爬取和对齐可用的主流电影音频描述，包含超过 384,000 个自然语言句子，展示出视频语言基础数据集中存在的偏差的显着减少，使短暂的时间点可以准确地与长达三个小时的视频相匹配。

Dec, 2021