多尺度二维时间地图扩散模型用于自然语言视频定位

Jan, 2024

多尺度二维时间地图扩散模型用于自然语言视频定位

Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video Localization

Chongzhi Zhang, Mingyuan Zhang, Zhiyang Teng, Jiayi Li, Xizhou Zhu...

TL;DR自然语言视频定位（NLVL）是视频理解中复杂但关键的任务之一，本研究提出了一种旨在解决全局捕获视频数据时空动态的 NLVL 新方法，通过条件去噪扩散过程直接生成全局 2D 时空图。多尺度技术和创新的扩散解码器克服了 2D 时空图的稀疏性和不连续性，有效地捕捉了查询和视频数据在不同时间尺度下的交互作用。实验证明了我们设计的有效性。

Abstract

natural language video localization (nlvl), grounding phrases from natural language descriptions to corresponding video segments, is a complex yet critical task in video understanding. Despite ongoing advancement

natural language video localization nlvl temporal dynamics 2d temporal map diffusion decoder

发现论文，激发创造

基于 LLM 的视频扩散模型

在视频生成方面，本研究提出了一种基于文本的扩散模型，通过使用大型语言模型（LLM）生成的动态场景布局来引导视频生成过程，旨在解决现有模型在处理复杂时空提示时遇到的限制和错误运动的问题。实验证明该方法在生成具有所需特征和运动模式的视频方面显著优于基准模型和一些强基线方法。

Sep, 2023

自然语言配合的多尺度 2D 时间相邻网络用于时刻定位

本论文提出了一种基于 Multi-Scale Temporal Adjacent Network (MS-2D-TAN) 的单次框架，通过一组预定义的二维地图在不同的时间尺度下建模视频时序的上下文信息，以实现从未修剪的视频中通过自然语言检索到特定时刻的目标。

Dec, 2020

基于跨度问答框架的自然语言视频定位再探讨

本文提出基于 VSLNet 的自然语言视频定位 (NLVL) 方法，利用基于 span 的 question answering (QA) 框架来解决长视频定位中的性能衰退问题，并通过 VSLNet-L 模型进一步提高性能。实验结果表明，该方法优于现有方法，VSLNet-L 可以解决长时间视频性能衰退的问题。

Feb, 2021

可学习时刻提议的自然语言视频本地化

本文介绍了一种新的模型 ——LPNet，采用学习性提议网络实现了自然语言视频定位 (NLVL) 任务，较提出与排序模型达到更好的性能。

Sep, 2021

文本到视频生成的层次化时空解耦

提出了 HiGen，一种基于扩散模型的方法，通过从结构层面和内容层面解耦视频的空间和时间因素，实现了在生成视频时具备语义准确性和运动稳定性的方法。

Dec, 2023

利用自然语言在视频时序关系中进行时刻定位

本论文提出了 Temporal Compositional Modular Network (TCMN) 模型，该模型结合自然语言描述和视觉信息，通过树形注意力网络自动细分为描述主事件、情境事件和时间信号三部分，再使用两个模块计量视频片段与细分描述间的相似度和位置相似度，通过 late fusion 方法组合 RGB 和光流两种数据进行训练，实验证明此模型在 TEMPO 数据集上表现优于现有方法。

Aug, 2019

浏览、定位、然后阅读：一种类人的自然语言视频定位框架

提出了一种基于 Skimming-Locating-Perusing 架构，并采用 frame-differentiable 和 boundary-precise 的方法用于自然语言视频定位，并在三个具有挑战性的基准测试中获得比先前方法更准确的分割边界。

Jul, 2022

LiteVL：增强空间 - 时间建模的高效视频 - 语言学习

本文提出 LiteVL 模型，结合 BLIP 图像语言模型，通过使用动态时态缩放，给图像编码器添加时间注意力模块，并提出非参数池化机制，以自适应地重新加权文本条件下的细粒度视频嵌入，取得了良好的性能，即使没有进行任何视频 - 语言预训练。

Oct, 2022

探索使用扩散模型的迭代细化来进行视频定位

DiffusionVG 是一个以扩散模型为基础的新框架，通过生成随机噪声输入逐步改进的逆向扩散过程，将视频定位作为一项条件生成任务，并在主流 Charades-STA 和 ActivityNet Captions 基准测试中展示了竞争性甚至优越的性能。

Oct, 2023

利用时间结构描述视频

这篇论文提出了一种基于循环神经网络和 3-D 卷积神经网络以及时间注意力机制的视频自动描述方法，并在 Youtube2Text 数据集上的 BLEU 和 METEOR 度量标准上超过了当前最先进的结果，并在更大更具挑战性的配对视频和自然语言描述数据集上进行了测试。

Feb, 2015