ViGT:在 Transformer 模型中具有可学习令牌的无需提议的视频定位
通过统一视频时序定位(Video Temporal Grounding)的各种标签和任务,提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练,并获得更强的定位能力,例如零样本时序定位。对三项任务(时间区间提取、重要片段检测和视频摘要)在七个数据集上的广泛实验证明了该框架的有效性和灵活性。
Jul, 2023
本文提出了一种基于 Transformer 的视觉定位框架 TransVG,通过建立多模态对应关系,实现使用简单 Transformer 编码器层替代复杂的融合模块,在五个广泛使用的数据集上取得了一系列最先进的记录并构建了基于 Transformer 的视觉定位框架基准。
Apr, 2021
该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法,通过在不损伤位置定位能力的前提下,在文本描述的指导下学习语义鉴别的视觉特征,具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明,在保持快速推理速度的同时,该方法在五个基准上优于现有的提案 - free 方法。
May, 2021
视频时间定位(VTG)目标是根据语言查询从未经修剪的视频中定位特定的时间段。我们提出了 VTG-GPT,这是一种基于 GPT 的零训练或微调的方法,以减少人为偏见和冗余信息,并实现与有监督方法相媲美的性能。
Mar, 2024
本篇论文提出了一种新型的端到端、多模态 Transformer 模型 ——GTR,通过将视频定位看作一个集合预测任务来实现,采用立方体嵌入层将原始视频转换为视觉令牌;在解码器中,采用新型的多头跨模态注意力机制来更好地融合两种模态,整个模型的优化采用 Many-to-One 匹配损失函数,实现了记录性能和较快的推理速度,获得更好的结果。
Sep, 2021
AutoTVG 是一种新的视觉 - 语言预训练范式,旨在通过自动注释的未剪辑视频学习语义对齐和边界回归,从而在有限的监督下实现零样本测试中高竞争性的时态视频定位表现。
Jun, 2024
DiffusionVG 是一个以扩散模型为基础的新框架,通过生成随机噪声输入逐步改进的逆向扩散过程,将视频定位作为一项条件生成任务,并在主流 Charades-STA 和 ActivityNet Captions 基准测试中展示了竞争性甚至优越的性能。
Oct, 2023
近年来,研究人员试图调查 LLM 在处理视频方面的能力,并提出了几种视频 LLM 模型。然而,LLM 在处理视频对齐(VG)方面的能力仍然不清楚,也没有在文献中进行探索。为了填补这一空白,本文提出了 LLM4VG 基准测试,对不同的 LLM 在视频对齐任务上的性能进行系统评估。基于我们提出的 LLM4VG,我们设计了大量实验,检查了两组视频 LLM 模型在视频对齐上的表现:(i)基于文本 - 视频对训练的视频 LLM(标记为 VidLLM),以及(ii)与预训练的视觉描述模型(如视频 / 图像字幕模型)结合的 LLM。我们提出了整合 VG 指令和来自不同类型生成器的描述的方法,包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于 VQA 的生成器。我们还对各种 VidLLM 进行了全面比较,并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论:(i)现有的 VidLLM 离实现令人满意的视频对齐性能还有很长的路要走,需要进一步微调这些模型以包含更多的与时间相关的视频任务;(ii)LLM 和视觉模型的组合显示出初步的视频对齐能力,通过采用更可靠的模型和进一步的提示指导,这种能力具有可观的改进潜力。
Dec, 2023
本文介绍了一项新任务 —— 人体中心的时空视频定位(HC-STVG),并提出了一种名为 Spatio-Temporal Grounding with Visual Transformers(STGVT)的基准方法,该方法使用 Visual Transformers 来提取视频 - 句子匹配和时间定位的跨模态表示,同时我们贡献了一个 HC-STVG 数据集,其中包含 5,660 个复杂的多人场景视频 - 句子对。经过大量实验,表明新提出的方法优于现有的基准方法。
Nov, 2020
视频段落定位是视频语言理解中的新兴任务,其旨在从未修剪的视频中定位具有语义关系和时间顺序的多个句子。本研究提出并探索了弱监督视频段落定位,消除了对耗时且繁重的时间标签的需求。通过引入新颖的暹罗学习框架,我们联合学习跨模态特征对齐和无需时间戳标签的时间坐标回归,实现基于一阶定位的简洁弱监督视频段落定位。我们通过广泛实验验证了我们的范例具有卓越的实用性和灵活性,能够以高效的弱监督或半监督学习实现,并在使用相同或更强监督训练的最先进方法上表现出色。
Mar, 2024