利用多模态引导在长视频中定位时刻
通过使用多模态信息,我们提出了一种用于处理长视频中的 Temporal Sentence Grounding 任务的 Grounding-Prompter 方法,通过引导 LLM 进行 TSG,提高了推理能力和理解 TSG 任务的性能。
Dec, 2023
本文主要研究了利用语言引导定位视频中的相关片段的问题,提出一种简单直观的跨模态注意力模块 (CMA) 和针对此任务的新回归损失函数来提高定位精度,并在 Charades-STA 和 ActivityNet Captions 数据集上超越了目前最先进的方法。
Sep, 2020
本文提出了一种事件感知的动态时刻查询方法,通过事件推理和时刻推理来预测视频中的时刻时间戳,实验证明了该方法在视频定位方面的有效性和高效性。
Aug, 2023
本文提出了一种基于多模态框架的文本指导视频时间地基方法,采用 RGB 图像、光流和深度图来提取视频的补充信息并通过 transformers 设计动态融合方案进行交互学习,在 Charades-STA 和 ActivityNet Captions 数据集上实验表明,该方法表现优越。
Jul, 2021
本篇论文提出了一种新型的端到端、多模态 Transformer 模型 ——GTR,通过将视频定位看作一个集合预测任务来实现,采用立方体嵌入层将原始视频转换为视觉令牌;在解码器中,采用新型的多头跨模态注意力机制来更好地融合两种模态,整个模型的优化采用 Many-to-One 匹配损失函数,实现了记录性能和较快的推理速度,获得更好的结果。
Sep, 2021
本文提出了一种更有效率的、端到端可训练的、不需要先提出建议的方法,以自然语言作为查询,解决了在长视频中定位时间点的问题。通过引入动态滤波器、新的损失函数和软标签等三个关键组件,实现从语言信息到视觉领域的转换,并评估了该方法在两个基准数据集上的表现优越性。
Aug, 2019
近年来,研究人员试图调查 LLM 在处理视频方面的能力,并提出了几种视频 LLM 模型。然而,LLM 在处理视频对齐(VG)方面的能力仍然不清楚,也没有在文献中进行探索。为了填补这一空白,本文提出了 LLM4VG 基准测试,对不同的 LLM 在视频对齐任务上的性能进行系统评估。基于我们提出的 LLM4VG,我们设计了大量实验,检查了两组视频 LLM 模型在视频对齐上的表现:(i)基于文本 - 视频对训练的视频 LLM(标记为 VidLLM),以及(ii)与预训练的视觉描述模型(如视频 / 图像字幕模型)结合的 LLM。我们提出了整合 VG 指令和来自不同类型生成器的描述的方法,包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于 VQA 的生成器。我们还对各种 VidLLM 进行了全面比较,并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论:(i)现有的 VidLLM 离实现令人满意的视频对齐性能还有很长的路要走,需要进一步微调这些模型以包含更多的与时间相关的视频任务;(ii)LLM 和视觉模型的组合显示出初步的视频对齐能力,通过采用更可靠的模型和进一步的提示指导,这种能力具有可观的改进潜力。
Dec, 2023
通过提出 Moment Context Network 来定位自然语言查询中的视频段,并通过构建 Distinct Describable Moments 数据集实现对局部视屏段的描述。
Aug, 2017
在本文中,我们研究了跨模态融合对视频定位模型可扩展性的影响,通过分析发现,针对长视频和大量文本查询的情况,后期融合是一种更具成本效益的融合方案,并提出了一种基于视频的采样方案以实现高效训练。基于这些发现,我们提出了 SnAG,作为可扩展且准确的视频定位的简单基准模型,相较于现有的 CONE 方法在具有挑战性的 MAD 数据集上,在长视频上 SnAG 更准确且快速,同时在短视频上也取得了极具竞争力的结果。
Apr, 2024
该论文提出了 MAD 基准测试,通过爬取和对齐可用的主流电影音频描述,包含超过 384,000 个自然语言句子,展示出视频语言基础数据集中存在的偏差的显着减少,使短暂的时间点可以准确地与长达三个小时的视频相匹配。
Dec, 2021